线性回归应用简要介绍

本文简单介绍了线形回归模型的使用场景、原理以及使用时的注意事项，下一篇会进入代码实践。

sikadeerlu

14576人浏览 · 2022-03-19 16:56:03

sikadeerlu · 2022-03-19 16:56:03 发布

本文简单介绍了线形回归模型的使用场景、原理以及使用时的注意事项，下一篇会进入代码实践。

1、线性回归的应用场景

线性回归是机器学习中较容易理解的一个白盒模型，因为其有着较为通俗的表达式 $y = \beta _{0} + \beta _{1} x_{1} + \beta _{2} x_{2} + ... + \beta _{n} x_{n} + \varepsilon$ ，这个表达式能够较为清晰地告诉我们因变量 $y$ 和自变量 $x{_{1}},x{_{2}},...,x{_{n}}$ 之间的线性关系，例如当其他变量保持不变时， $x{_{1}}$ 每增加一个单位，因变量 $y$ 会改变 $\beta _{1}$ 倍，所以有着很广泛地应用场景。

1.1 做预测

当我们关心的因变量 $y$ 是连续变量，并与其影响因素 $x{_{1}},x{_{2}},...,x{_{n}}$ 有线性关系时，都可以用它进行建模，例如预测信用卡用户生命周期价值时，可以建立其与用户所在小区平均收入、年龄、学历、收入等之间地线性模型，预测用户的生命周期价值，然后给用户评级。

1.2 用来做模型解释

当我们想通过温度、湿度、季节、是否周末、节假日、总用户数等因素预测单车租赁量时，可以建立xgboost、dnn等黑盒模型先进行预测得到租赁量 $\hat{y}$ ，接着再通过一个白盒模型如决策树、线性回归等模型以自变量 $x{_{1}},x{_{2}},...,x{_{n}}$ 作为输入变量，以 $\hat{y}$ 作为目标变量进行建模，用来了解黑盒模型的运作机制，并对其作出解释。

1.3 实验效果评估

（1）全量实验效果评估

全量实验评估是指当在时间点 $T_{0}$ 时，对全量用户加入干预策略，然后评估策略所带来的影响。进行评估时，核心是要剥离其他因素，对实验效果进行评估，线形回归就能解决这个问题。举例来说，某公司的订单量 $y$ 主要受价格 $x$ 的影响，在某时间点上线了新的系统能够提高效率（假设效率对和价格是非相关的），要评估新系统对订单量 $y$ 的影响。这时就可以建立订单量和价格 $x$ 以及是否上线新系统 $t$ 这两个因素的线性模型，从而得到干净的策略影响。

（2）AB实验

当进行AB实验时，假定我们有两组无差异的用户群体 $A_{1}$ 和 $A_{2}$ ，以 $A_{1}$ 作为实验组对其施加策略干预， $A_{2}$ 作为对照组不采取施加任何策略，来评估实验对观测变量的影响，可以采取t或z检验来得到结果，当然也可以建立线性回归模型 $y = \alpha + \beta * exp + \varepsilon$ ， $exp$ 为是否为实验组的哑变量（当策略变多时，也可为分类变量），通过检验参数 $\beta$ 的显著性即可得到策略的效果。

2、线性回归原理

以最简单的一元线性回归为例，有一组样本数据 $(x_{1},y{_{1}}),(x_{2},y{_{2}}),...,(x_{n},y{_{n}})$ ，对其做线性回归预测时，就是找到一条直线使样本点到这条直线的距离最短。假设这条直线能够表示为 $y = \beta _{0} + \beta _{1} x + \varepsilon$ ，由于 $\beta _{0}$ 和 $\beta _{1}$ 的值未知，需要用样本点来估计，达到实际值和预测值之间的残差最小，即 $min\sum (y_{i} - \hat{y_{i}})^{2}$ ，将 $\hat{y_{i}}$ 用 $\beta _{0} + \beta _{1} x_{i}$ 带入，并分别对 $\beta _{0} , \beta _{1}$ 求偏导，并令导数为0，即可求出两个系数的估计值，这种求解方法就是最小二乘法。

多元线性回归对应的原理也是类似的，差别点在模型的变量筛选，即以什么样的方法什么样的标准判定哪些变量应该进入模型。常用的方法有向前筛选、向后筛选、逐步筛选，筛选过程中遵循的标准有AIC、BIC、P值等。

3、线性回归使用时的注意事项

使用线性回归模型做预测时，有几个注意事项，特别是残差的假设和分析能够提供很多信息，帮助我们判断模型是否可用，以及下一步的调整方向。这一部分会简单介绍一下理论部分，在下一篇会用python进行具体的实践。

（1）因变量和自变量要有线性关系

这个对应到的时整个回归模型地检验，即F检验，原假设是系数都为0，当F检验的统计量落到拒绝域或者p值小于0.05时，即可拒绝原假设，即能证明至少有一个自变量和因变量有线性关系。

（2）残差与自变量不相关，且期望为0（不能检验，可通过残差图来观察）

（3）残差与残差之间相互独立，且都服从期望为0，方差为 $\sigma ^{2}$ 的正态分布

一般用残差图检验残差是否独立同分布以及是否满足方差齐性，也可以检验残差的偏度、封度是否和接近正态分布。

（4）自变量间的多重共线性问题

自变量之间如果存在强相关关系时，会造成回归系数和截距的估计不稳定。模型是否存在共线性问题，可用方差膨胀因子来检验。方差膨胀因子的计算公式是：

$VIF_{i} = \frac{1}{1-R{_{i}}^{2}}$ ， $VIF_{i}$ 是 $x_{i}$ 的方差膨胀系数， $R{_{i}}^{2}$ 是以 $x_{i}$ 作为因变量，建立与其他自变量之间的线形回归模型时得到的 $R^{2}$ 。

实际操作中用方差膨胀因子进行变量多重共线性的判定会特别繁琐，可以使用岭回归、Lasso回归来进行建模，模型能够对直接将有共线性变量系数收缩为0，其中Lasso回归的实用性更强。

下一篇将进入实践部分

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

机器学习决策树-分类

2048 AI社区

不懂编程本科毕业生手搓三个APP，用ChatGPT两年狂赚千万美金！

而现在更厉害的是，有了多模态能力的ChatGPT，直接上传设计图片、截图，并告诉它「我要做成这个样子，这些按钮要实现xxx功能，帮我把代码写出来」。ChatGPT发布那天，Walter Isaacson在课上也是表现的异常热情激动，他的眼睛闪烁着兴奋的光芒，就像孩子看到了心爱的玩具一样。也就是说，假设你能做对80%的决策，另一个人也能做对80%，并且你们的专长领域不重叠，那么当你们联手的时候，正确