7种回归⽅法!请务必掌握!
7 种回归⽅法!请务必掌握!
线性回归和逻辑回归通常是⼈们学习预测模型的第⼀个算法。由于这⼆者的知名度很⼤,许多分析⼈员以为它们就是回归的唯⼀形式了。⽽了解更多的学者会知道它们是所有回归模型的主要两种形式。
事实是有很多种回归形式,每种回归都有其特定的适⽤场合。在这篇⽂章中,我将以简单的形式介绍 7 中最常见的回归模型。通过这篇⽂章,我希望能够帮助⼤家对回归有更⼴泛和全⾯的认识,⽽不是仅仅知道使⽤线性回归和逻辑回归来解决实际问题。
本⽂将主要介绍以下⼏个⽅⾯:
1. 什么是回归分析?
2. 为什么使⽤回归分析?
3. 有哪些回归类型?
线性回归(Linear Regression)
逻辑回归(Logistic Regression)
多项式回归(Polynomial Regression)
逐步回归(Stepwise Regression)
岭回归(Ridge Regression)
套索回归(Lasso Regression)
弹性回归(ElasticNet Regression)
4. 如何选择合适的回归模型?
1
什么是回归分析?
回归分析是⼀种预测建模技术的⽅法,研究因变量(⽬标)和⾃变量(预测器)之前的关系。这⼀技术被⽤在预测、时间序列模型和寻变量之间因果关系。例如研究驾驶员鲁莽驾驶与交通事故发⽣频率之间的关系,就可以通过回归分析来解决。
回归分析是进⾏数据建模、分析的重要⼯具。下⾯这张图反映的是使⽤⼀条曲线来拟合离散数据点。其中,所有离散数据点与拟合曲线对应位置的差值之和是被最⼩化了的,更多细节我们会慢慢介绍。
2
为什么使⽤回归分析?
如上⾯所说,回归分析能估计两个或者多个变量之间的关系。下⾯我们通过⼀个简单的例⼦来理解:
⽐如说,你想根据当前的经济状况来估计⼀家公司的销售额增长。你有最近的公司数据,数据表明销售增长⼤约是经济增长的 2.5 倍。利⽤这种洞察⼒,我们就可以根据当前和过去的信息预测公司未来的销售情况。
使⽤回归模型有很多好处,例如:
1. 揭⽰了因变量和⾃变量之间的显著关系
2. 揭⽰了多个⾃变量对⼀个因变量的影响程度⼤⼩
回归分析还允许我们⽐较在不同尺度上测量的变量的影响,例如价格变化的影响和促销活动的数量的影
响。这样的好处是可以帮助市场研究者 / 数据分析家 / 数据科学家评估选择最佳的变量集,⽤于建⽴预测模型。
3
有哪些回归类型?
有许多回归技术可以⽤来做预测。这些回归技术主要由三个度量(独⽴变量的数量、度量变量的类型和回归线的形状)驱动。我们将在下⾯的章节中详细讨论。
对于有创造⼒的⼈来说,可以对上⾯的参数进⾏组合,甚⾄创造出新的回归。但是在此之前,让我们来看⼀看最常见的⼏种回归。
1) 线性回归(Linear Regression)
线性回归是最为⼈熟知的建模技术,是⼈们学习如何预测模型时的⾸选之⼀。在此技术中,因变量是连续的,⾃变量可以是连续的也可以是离散的。回归的本质是线性的。
线性回归通过使⽤最佳的拟合直线(⼜被称为回归线),建⽴因变量(Y)和⼀个或多个⾃变量(X)之间的关系。
它的表达式为:Y=a+b*X+e,其中 a 为直线截距,b 为直线斜率,e 为误差项。如果给出了⾃变量 X,就能通过这个线性回归表达式计算出预测值,即因变量 Y。
⼀元线性回归和多元线性回归的区别在于,多元线性回归有⼤于 1 个⾃变量,⽽⼀元线性回归只有 1 个⾃变量。接下来的问题是“如何获得最佳拟合直线?”
如何获得最佳拟合直线(确定 a 和 b 值)?
这个问题可以使⽤最⼩⼆乘法(Least Square Method)轻松解决。最⼩⼆乘法是⼀种拟合回归线的常⽤算法。它通过最⼩化每个数据点与预测直线的垂直误差的平⽅和来计算得到最佳拟合直线。因为计算的是误差平⽅和,所有,误差正负值之间没有相互抵消。
我们可以使⽤指标 R-square 来评估模型的性能。
重点:
⾃变量和因变量之间必须满⾜线性关系。
多元回归存在多重共线性,⾃相关性和异⽅差性。
线性回归对异常值⾮常敏感。异常值会严重影响回归线和最终的预测值。
多重共线性会增加系数估计的⽅差,并且使得估计对模型中的微⼩变化⾮常敏感。结果是系数估计不稳定。
在多个⾃变量的情况下,我们可以采⽤正向选择、向后消除和逐步选择的⽅法来选择最重要的⾃变量。正则化的具体做法
2) 逻辑回归
逻辑回归⽤来计算事件成功(Success)或者失败(Failure)的概率。当因变量是⼆进制(0/1,True/False,Yes/No)时,应该使⽤逻辑回归。这⾥,Y 的取值范围为 [0,1],它可以由下列等式来表⽰。
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1++bkXk
其中,p 是事件发⽣的概率。你可能会有这样的疑问“为什么在等式中使⽤对数 log 呢?”
因为我们这⾥使⽤的⼆项分布(因变量),所以需要选择⼀个合适的激活函数能够将输出映射到 [0,1]
之间,Logit 函数满⾜要求。在上⾯的等式中,通过使⽤最⼤似然估计来得到最佳的参数,⽽不是使⽤线性回归最⼩化平⽅误差的⽅法。
重点:
逻辑回归⼴泛⽤于分类问题。
逻辑回归不要求因变量和⾃变量之间是线性关系,它可以处理多类型关系,因为它对预测输出进⾏了⾮线性 log 变换。
为了避免过拟合和⽋拟合,我们应该涵盖所有有⽤的变量。实际中确保这种情况的⼀个好的做法是使⽤逐步筛选的⽅法来估计逻辑回归。
训练样本数量越⼤越好,因为如果样本数量少,最⼤似然估计的效果就会⽐最⼩⼆乘法差。
⾃变量不应相互关联,即不存在多重共线性。然⽽,在分析和建模中,我们可以选择包含分类变量相互作⽤的影响。
如果因变量的值是序数,则称之为序数逻辑回归。
如果因变量是多类别的,则称之为多元逻辑回归。
3) 多项式回归(Polynomial Regression)
对应⼀个回归⽅程,如果⾃变量的指数⼤于 1,则它就是多项式回归⽅程,如下所⽰:
y=a+b*x^2
在多项式回归中,最佳的拟合线不是直线,⽽是拟合数据点的曲线。
重点:
虽然可能会有⼀些诱导去拟合更⾼阶的多项式以此来降低误差,但是这样容易发⽣过拟合。应该画出拟合曲线图形,重点放在确保曲线反映样本真实分布上。下图是⼀个例⼦,可以帮助我们理解。
尤其要注意曲线的两端,看看这些形状和趋势是否有意义。更⾼的多项式可以产⽣怪异的推断结果。
4) 逐步回归(Stepwise Regression)
当我们处理多个独⽴变量时,就使⽤逐步回归。在这种技术中,独⽴变量的选择是借助于⾃动过程来完成的,不涉及⼈⼯⼲预。
逐步回归的做法是观察统计值,例如 R-square、t-stats、AIC 指标来辨别重要的变量。基于特定标准,
通过增加/删除协变量来逐步拟合回归模型。常见的逐步回归⽅法如下所⽰:
标准的逐步回归做两件事,每⼀步中增加或移除⾃变量。
前向选择从模型中最重要的⾃变量开始,然后每⼀步中增加变量。
反向消除从模型所有的⾃变量开始,然后每⼀步中移除最⼩显著变量。
这种建模技术的⽬的是通过使⽤最少的⾃变量在得到最⼤的预测能⼒。它也是处理⾼维数据集的⽅法之⼀。
5) 岭回归(Ridge Regression)
岭回归是当数据遭受多重共线性(独⽴变量⾼度相关)时使⽤的⼀种技术。在多重共线性中,即使最⼩⼆乘估计(OLS)是⽆偏差的,但是⽅差很⼤,使得观察智远离真实值。岭回归通过给回归估计中增加额外的偏差度,能够有效减少⽅差。
之前我们介绍过线性回归⽅程,如下所⽰:
y = a + b*x
这个⽅程也有⼀个误差项,完整的⽅程可表⽰成:
y=a+b*x+e (error term), [error term is the value needed to correct for a prediction error between the observed and predicted value]
=> y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables.
在线性⽅程中,预测误差可以分解为两个⼦分量。⾸先是由于偏颇,其次是由于⽅差。预测误差可能由于这两个或两个分量中的任何⼀个⽽
发⽣。这⾥,我们将讨论由于⽅差引起的误差。
岭回归通过收缩参数λ(lambda)解决了多重共线性问题。请看下⾯的⽅程式:
上⾯这个公式中包含两项。第⼀个是最⼩平⽅项,第⼆个是系数β的平⽅和项,前⾯乘以收缩参数λ。增加第⼆项的⽬的是为了缩⼩系数β的幅值以减⼩⽅差。
重点:
除⾮不假定正态性,岭回归与最⼩⼆乘回归的所有假设是⼀样的。
岭回归缩⼩了系数的值,但没有达到零,这表明它没有特征选择特征。
这是⼀个正则化⽅法,使⽤了 L2 正则化。
6) 套索回归(Lasso Regression)
类似于岭回归,套索(Least Absolute Shrinkage and Selection Operator)回归惩罚的是回归系数的绝对值。此外,它能够减少变异性和提⾼线性回归模型的准确性。请看下⾯的⽅程式:
套索回归不同于岭回归,惩罚函数它使⽤的是系数的绝对值之和,⽽不是平⽅。这导致惩罚项(或等价于约束估计的绝对值之和),使得⼀些回归系数估计恰好为零。施加的惩罚越⼤,估计就越接近零。实现从 n 个变量中进⾏选择。
重点:
除⾮不假定正态性,套索回归与最⼩⼆乘回归的所有假设是⼀样的。
套索回归将系数收缩到零(正好为零),有助于特征选择。
这是⼀个正则化⽅法,使⽤了 L1 正则化。
如果⼀组⾃变量⾼度相关,那么套索回归只会选择其中⼀个,⽽将其余的缩⼩为零。
7) 弹性回归(ElasticNet Regression)
弹性回归是岭回归和套索回归的混合技术,它同时使⽤ L2 和 L1 正则化。当有多个相关的特征时,弹性⽹络是有⽤的。套索回归很可能随机选择其中⼀个,⽽弹性回归很可能都会选择。
权衡岭回归和套索回归的⼀个优点是它让弹性回归继承了⼀些岭回归在旋转状态下的稳定性。
重点:
在⾼度相关变量的情况下,它⽀持体效应。
它对所选变量的数⽬没有限制
它具有两个收缩因⼦λ1 和λ2。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论