线性回归应用简要介绍
本文简单介绍了线形回归模型的使用场景、原理以及使用时的注意事项,下一篇会进入代码实践。
本文简单介绍了线形回归模型的使用场景、原理以及使用时的注意事项,下一篇会进入代码实践。
目录
1、线性回归的应用场景
线性回归是机器学习中较容易理解的一个白盒模型,因为其有着较为通俗的表达式,这个表达式能够较为清晰地告诉我们因变量
和自变量
之间的线性关系,例如当其他变量保持不变时,
每增加一个单位,因变量
会改变
倍,所以有着很广泛地应用场景。
1.1 做预测
当我们关心的因变量是连续变量,并与其影响因素
有线性关系时,都可以用它进行建模,例如预测信用卡用户生命周期价值时,可以建立其与用户所在小区平均收入、年龄、学历、收入等之间地线性模型,预测用户的生命周期价值,然后给用户评级。
1.2 用来做模型解释
当我们想通过温度、湿度、季节、是否周末、节假日、总用户数等因素预测单车租赁量时,可以建立xgboost、dnn等黑盒模型先进行预测得到租赁量,接着再通过一个白盒模型如决策树、线性回归等模型以自变量
作为输入变量,以
作为目标变量进行建模,用来了解黑盒模型的运作机制,并对其作出解释。
1.3 实验效果评估
(1)全量实验效果评估
全量实验评估是指当在时间点时,对全量用户加入干预策略,然后评估策略所带来的影响。进行评估时,核心是要剥离其他因素,对实验效果进行评估,线形回归就能解决这个问题。举例来说,某公司的订单量
主要受价格
的影响,在某时间点上线了新的系统能够提高效率(假设效率对和价格是非相关的),要评估新系统对订单量
的影响。这时就可以建立订单量和价格
以及是否上线新系统
这两个因素的线性模型,从而得到干净的策略影响。
(2)AB实验
当进行AB实验时,假定我们有两组无差异的用户群体和
,以
作为实验组对其施加策略干预,
作为对照组不采取施加任何策略,来评估实验对观测变量的影响,可以采取t或z检验来得到结果,当然也可以建立线性回归模型
,
为是否为实验组的哑变量(当策略变多时,也可为分类变量),通过检验参数
的显著性即可得到策略的效果。
2、线性回归原理
以最简单的一元线性回归为例,有一组样本数据,对其做线性回归预测时,就是找到一条直线使样本点到这条直线的距离最短。假设这条直线能够表示为
,由于
和
的值未知,需要用样本点来估计,达到实际值和预测值之间的残差最小,即
,将
用
带入,并分别对
求偏导,并令导数为0,即可求出两个系数的估计值,这种求解方法就是最小二乘法。
多元线性回归对应的原理也是类似的,差别点在模型的变量筛选,即以什么样的方法什么样的标准判定哪些变量应该进入模型。常用的方法有向前筛选、向后筛选、逐步筛选,筛选过程中遵循的标准有AIC、BIC、P值等。
3、线性回归使用时的注意事项
使用线性回归模型做预测时,有几个注意事项,特别是残差的假设和分析能够提供很多信息,帮助我们判断模型是否可用,以及下一步的调整方向。这一部分会简单介绍一下理论部分,在下一篇会用python进行具体的实践。
(1)因变量和自变量要有线性关系
这个对应到的时整个回归模型地检验,即F检验,原假设是系数都为0,当F检验的统计量落到拒绝域或者p值小于0.05时,即可拒绝原假设,即能证明至少有一个自变量和因变量有线性关系。
(2)残差与自变量不相关,且期望为0(不能检验,可通过残差图来观察)
(3)残差与残差之间相互独立,且都服从期望为0,方差为的正态分布
一般用残差图检验残差是否独立同分布以及是否满足方差齐性,也可以检验残差的偏度、封度是否和接近正态分布。
(4)自变量间的多重共线性问题
自变量之间如果存在强相关关系时,会造成回归系数和截距的估计不稳定。模型是否存在共线性问题,可用方差膨胀因子来检验。方差膨胀因子的计算公式是:
,
是
的方差膨胀系数,
是以
作为因变量,建立与其他自变量之间的线形回归模型时得到的
。
实际操作中用方差膨胀因子进行变量多重共线性的判定会特别繁琐,可以使用岭回归、Lasso回归来进行建模,模型能够对直接将有共线性变量系数收缩为0,其中Lasso回归的实用性更强。
下一篇将进入实践部分
更多推荐
所有评论(0)