逻辑回归算法简介(数据产品经理必看)

逻辑回归算法简介(数据产品经理必看)(1)

单纯理解算法还算容易,但是到实际工作中就往往理不清头绪,特征变量从哪来,又怎么选,模型的输出结果是什么,如何评价模型好坏,有了模型如何应用,模型上线之后还要做什么等等一系列问题。今天逻辑回归算法简介(数据产品经理必看)(2)我们就以常用的逻辑回归为例,逻辑回归算法简介(数据产品经理必看)(3)结合实际场景说说如何应用结果问题的过程。对于数据产品经理、数据建模师、数据挖掘工程师、数据分析师来说,都必须逻辑回归算法简介(数据产品经理必看)(4)了解逻辑回归算法简介(数据产品经理必看)(5)全部流程。

算法描述

逻辑回归(Logistic Regression)是应用非常广泛的一种逻辑回归算法简介(数据产品经理必看)(6)分类机器学习算法,算法简单且高效、预测速度快,而且容易学习和理解。进一步说,逻辑回归是一个二逻辑回归算法简介(数据产品经理必看)(7)分类算法,主要解决离散的两元逻辑回归算法简介(数据产品经理必看)(8)分类【是、否】预测的问题。听得最多的线性回归是解决连续型变量预测的问题,例如已知近年的销售数据预测下季度的销售额。

对于多个逻辑回归算法简介(数据产品经理必看)(9)分类问题,y不在[0, 1]中取值,而是有K个逻辑回归算法简介(数据产品经理必看)(10)分类。多非类有两种情况,一是K个类别不是互斥的,比如逻辑回归算法简介(数据产品经理必看)(11)用户会购买哪些品类,就可以为每个品类分别训练一个二元逻辑回归算法简介(数据产品经理必看)(12)分类器。如果K个类别是互斥的,即y=1时不能取其它值,比如预测逻辑回归算法简介(数据产品经理必看)(13)用户的年龄段,这种情况可以利用Softmax Regression算法,是对LR的改进。

逻辑回归算法简介(数据产品经理必看)(14)下面这张图非常清晰的描述了算法的原理,n个自变量(X1,X2,…Xn)会影响逻辑回归算法简介(数据产品经理必看)(15)分类结果,Beta系数逻辑回归算法简介(数据产品经理必看)(16)代表是每个变量对逻辑回归算法简介(数据产品经理必看)(17)分类的影响程度,需要通过训练数据集做最大似然估计(所有样本的预测值和真实值一致性的概率最大)得出,Beta值越大说明该变量对结果的影响越显著,然后再用Logit函数做变型,把数值转化成[0, 1]值。

逻辑回归算法简介(数据产品经理必看)(18)

逻辑回归算法简介(数据产品经理必看)(19)

逻辑回归是有监督学习算法,首先利用训练数据集多次迭代估算出Beta参数,然后把测试数据带入逻辑回归算法简介(数据产品经理必看)(20)下面的公式(sigmoid函数),就可以求出每个测试记录的预测值,把预测值和实际的真实进行比较,计算模型的准确率、AUC值来评价该模型能是否达到应用要求。

逻辑回归算法简介(数据产品经理必看)(21)

为什么能得到【0,1】之间的概率呢,主要是sigmoid函数的功劳,如果把逻辑回归算法简介(数据产品经理必看)(22)上面的sigmoid函数用图像画出来就能直观看出来了。从逻辑回归算法简介(数据产品经理必看)(23)如下的函数逻辑回归算法简介(数据产品经理必看)(24)图上可以看出,函数y=g(z)在z=0的时候取值为1/2,而随着z逐渐变小,函数值趋于0,z逐渐变大的同时函数值逐渐趋于1,而这正是一个概率的范围。

逻辑回归算法简介(数据产品经理必看)(25)

作为产品经理必须要理解算法原理、来龙去脉、应用场景,知道如何准备数据,基本够用了,推倒算法的过程还是交给数学专业的搞吧,逻辑回归算法简介(数据产品经理必看)(26)下面逻辑回归算法简介(数据产品经理必看)(27)我们通过实际例子,看看如何使用算法。

算法实例

1. 案例描述

预测逻辑回归算法简介(数据产品经理必看)(28)用户对18个大品类的购买偏好【1,0】,品类偏好不是互斥的,即可以同时喜欢多个,所以使用LR构建18个逻辑回归算法简介(数据产品经理必看)(29)分类模型预测逻辑回归算法简介(数据产品经理必看)(30)用户对每个品类的购买偏好即可。

2. 分析变量

找到可能影响逻辑回归算法简介(数据产品经理必看)(31)分类结果的因素,例如:品类逻辑回归算法简介(数据产品经理必看)(32)浏览频次、品类购买频次、购买总金额、平均购买间隔天数、近一次购买时间、近一次逻辑回归算法简介(数据产品经理必看)(33)浏览时间、总停留时间、家庭逻辑回归算法简介(数据产品经理必看)(34)人口数量、地理位置。然后数据仓库中汇总计算出这些指标(这部分属于数据工程师的工作,从原始数据中抽取、汇总计算,例如数据仓库有逻辑回归算法简介(数据产品经理必看)(35)用户购买的多条记录,但没有平均购买间隔天数这个指标),最后一列是实际的逻辑回归算法简介(数据产品经理必看)(36)分类结果,构建成一个含有很多相关变量的大宽表作为算法的训练数据集和测试数据集,逻辑回归算法简介(数据产品经理必看)(37)如下图逻辑回归算法简介(数据产品经理必看)(38)所示。

实际应用中为了模型更加精准需要逻辑回归算法简介(数据产品经理必看)(39)组织更细节的变量,比如近1/2/3/7天的逻辑回归算法简介(数据产品经理必看)(40)点击、收藏、逻辑回归算法简介(数据产品经理必看)(41)浏览次数,以及逻辑回归算法简介(数据产品经理必看)(42)用户这些行为和该品类逻辑回归算法简介(数据产品经理必看)(43)全部逻辑回归算法简介(数据产品经理必看)(44)用户行为的比例逻辑回归算法简介(数据产品经理必看)(45)关系等等。

逻辑回归算法简介(数据产品经理必看)(46)

3. 特征选择

特征选择是从属性集合中选择那些重要的,与分析任务相关的子集的过程。选择变量不在多,关键就行。特征选择方法有逐步增加法(先选择一个最优的,然后逐个添加)、逐步递减法(所有属性做为候选,逐个删除)、递归特征删除法。

逻辑回归算法简介(数据产品经理必看)(47)这里使用递归删除法,通过逻辑回归算法本身就是计算特征变量的系数,系数大小也就逻辑回归算法简介(数据产品经理必看)(48)代表了该变量的重要程度。递归删除法是用全量特征跑出一个LR模型,根据线性模型的系数(逻辑回归算法简介(数据产品经理必看)(49)上面说过了系数越大说明变量和逻辑回归算法简介(数据产品经理必看)(50)分类相关性越大),删掉5-10%的弱特征,观察准确率/AUC的变化,逐步进行, 直至准确率/AUC出现大的下滑停止,这时保留下来的特征系数就是模型的输出。

4. 模型检验

模型检验主要采用准确率和AUC两个指标。

计算两个指标都需要理解几个概念,所谓的真正例就是真实类别为【是】且预测类别也为【是】,假负例(预测类别为【否】但实际为【是】)、假正例(预测类别为【真】但实际为【否】)、真负例(预测类别为【否】且实际也为【否】)。

准确率是指测试集中被逻辑回归算法简介(数据产品经理必看)(51)正确逻辑回归算法简介(数据产品经理必看)(52)分类的比例,例如100个测试记录,有82(48 34)个被逻辑回归算法简介(数据产品经理必看)(53)正确逻辑回归算法简介(数据产品经理必看)(54)分类,即真正例和真负例的和,逻辑回归算法简介(数据产品经理必看)(55)正确率就是82%,算法的准确率一般要高于80%,不然没法实际应用。

逻辑回归算法简介(数据产品经理必看)(56)

AUC(Area under 逻辑回归算法简介(数据产品经理必看)(57)the Curve 逻辑回归算法简介(数据产品经理必看)(58)of ROC)比较麻烦需要先画ROC曲线,AUC就是ROC曲线下方面积所占的比例,越大越好。ROC曲线X轴是假正例(FP)的累计比例,Y轴是真正例(TP)的累计比例,那么自然是,FP rate小时TP rate越大模型越好。

逻辑回归算法简介(数据产品经理必看)(59)

5. 模型输出

模型输出,模型构建完成后输出的结果就是保留的特征变量以及其对应的系数。

6. 模型应用

模型应用,有ID为1000的逻辑回归算法简介(数据产品经理必看)(60)用户,他对应的特征变量为(31, 6, 138, 29, 3, 26, 38, 4),判断其是否会购买洗护这个品类。方法就是把参数带回逻辑回归算法简介(数据产品经理必看)(61)下面的公式中,计算逻辑回归算法简介(数据产品经理必看)(62)分类概率是0还是1,如果是1就说明逻辑回归算法简介(数据产品经理必看)(63)用户近期会购买该品类。

逻辑回归算法简介(数据产品经理必看)(64)

7. 迭代优化

迭代优化,模型上线后会根据运营不断的去优化,提高转化率,比如再扩充平均购买金额,最大购买金额等等字段构建新的模型,然后做A/B测试,如果的准确率和转化率都高于旧的模型则正式上线。

至此,逻辑回归算法简介(数据产品经理必看)(65)我们就完成的逻辑回归的实际应用。

End.

作者:百川

逻辑回归算法简介(数据产品经理必看)(66)来源:人人都是产品经理

零基础入职数据分析就业班

课程的形式主要是“直播 录播”

报名专享:课程项目作业 1v1班逻辑回归算法简介(数据产品经理必看)(67)主任监督学习 爱数据学院学员专属网站 班级答疑群

课程结束后能熟练掌握SQL、Python、Excel、PPT等工具

适合人逻辑回归算法简介(数据产品经理必看)(68)群:

1.转行(岗位相关,专业相关、对数据分析感兴趣)

2.从事数据分析工作,但是需要提升技能以及增加实战逻辑回归算法简介(数据产品经理必看)(69)经验

3.应届毕业生入职数据分析

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页