⼀⽂读懂回归分析
本⽂10000字,阅读全⽂约需25分钟
本⽂为回归分析学习笔记。
作者|慕⽣鹏⽂章授权转载⾃数据派THU
编辑|刘刘刘佳楠
前⾔
1.“回归”⼀词的由来
我们不必在“回归”⼀词上费太多脑筋。英国著名统计学家弗朗西斯·⾼尔顿(Francis Galton,1822—1911)是最先应⽤统计⽅法研究两个变量之间关系问题的⼈。“回归”⼀词就是由他引⼊的。他对⽗母⾝⾼与⼉⼥⾝⾼之间的关系很感兴趣,并致⼒于此⽅⾯的研究。⾼尔顿发现,虽然有⼀个趋势:⽗母⾼,⼉⼥也⾼;⽗母矮,⼉⼥也矮,但从平均意义上说,给定⽗母的⾝⾼,⼉⼥的⾝⾼却趋同于或者说回归于总⼈⼝的平均⾝⾼。换句话说,尽管⽗母双亲都异常⾼或异常矮,⼉⼥⾝⾼并⾮也普遍地异常⾼或异常矮,⽽是具有回归于⼈⼝总平均⾼的趋势。更直观地解释,⽗辈⾼的体,⼉辈的平均⾝⾼低于⽗辈的⾝⾼;⽗辈矮的
体,⼉辈的平均⾝⾼⾼于其⽗辈的⾝⾼。⽤⾼尔顿的话说,⼉辈⾝⾼的“回归”到中等⾝⾼。这就是回归⼀词的最初由来。
回归⼀词的现代解释是⾮常简洁的:回归时研究因变量对⾃变量的依赖关系的⼀种统计分析⽅法,⽬的是通过⾃变量的给定值来估计或预测因变量的均值。它可⽤于预测、时间序列建模以及发现各种变量之间的因果关系。
使⽤回归分析的益处良多,具体如下:
(1)指⽰⾃变量和因变量之间的显著关系;
(2)指⽰多个⾃变量对⼀个因变量的影响强度。
回归分析还可以⽤于⽐较那些通过不同计量测得的变量之间的相互影响,如价格变动与促销活动数量之间的联系。这些益处有利于市场研究⼈员,数据分析⼈员以及数据科学家排除和衡量出⼀组最佳的变量,⽤以构建预测模型。
2.为什么使⽤回归分析
(1)更好地了解
对某⼀现象建模,以更好地了解该现象并有可能基于对该现象的了解来影响政策的制定以及决定采取何种相应措施。基本⽬标是测量⼀个或多个变量的变化对另⼀变量变化的影响程度。⽰例:了解某些特定濒危鸟类的主要栖息地特征(例如:降⽔、⾷物源、植被、天敌),以协助通过⽴法来保护该物种。
(2)建模预测
对某种现象建模以预测其他地点或其他时间的数值。基本⽬标是构建⼀个持续、准确的预测模型。⽰例:如果已知⼈⼝增长情况和典型的天⽓状况,那么明年的⽤电量将会是多少?
(3)探索检验假设
还可以使⽤回归分析来深⼊探索某些假设情况。假设您正在对住宅区的犯罪活动进⾏建模,以更好地了解犯罪活动并希望实施可能阻⽌犯罪活动的策略。开始分析时,您很可能有很多问题或想要检验的假设情况。
回归分析的作⽤主要有以下⼏点:
(1)挑选与因变量相关的⾃变量;
(2)描述因变量与⾃变量之间的关系强度;
(3)⽣成模型,通过⾃变量来预测因变量;
(4)根据模型,通过因变量,来控制⾃变量。
回归分析⽅法
现在有各种各样的回归技术可⽤于预测,这些技术主要包含三个度量:⾃变量的个数、因变量的类型以及回归线的形状。
1.回归分析⽅法
(1)线性回归
线性回归它是最为⼈熟知的建模技术之⼀。线性回归通常是⼈们在学习预测模型时⾸选的少数⼏种技术之⼀。在该技术中,因变量是连续的,⾃变量(单个或多个)可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使⽤最佳的拟合直线(也就是回归线)建⽴因变量(Y) 和⼀个或多个⾃变量 (X) 之间的联系。⽤⼀个等式来表⽰它,即:
Y=a b*X e
其中a 表⽰截距,b 表⽰直线的倾斜率,e 是误差项。这个等式可以根据给定的单个或多个预测变量来预测⽬标变量的值。
⼀元线性回归和多元线性回归的区别在于,多元线性回归有⼀个以上的⾃变量,⽽⼀元线性回归通常只有⼀个⾃变量。
线性回归要点:
(1)⾃变量与因变量之间必须有线性关系;
(2)多元回归存在多重共线性,⾃相关性和异⽅差性;
(3)线性回归对异常值⾮常敏感。它会严重影响回归线,最终影响预测值;
(4)多重共线性会增加系数估计值的⽅差,使得估计值对于模型的轻微变化异常敏感,结果就是系数估计值不稳定;
(5)在存在多个⾃变量的情况下,我们可以使⽤向前选择法,向后剔除法和逐步筛选法来选择最重要的⾃变量。
(2)Logistic回归
Logistic回归可⽤于发现 “事件=成功”和“事件=失败”的概率。当因变量的类型属于⼆元(1 / 0、真/假、是/否)变量时,我们就应该使⽤逻辑回归。这⾥,Y 的取值范围是从 0 到 1,它可以⽤下⾯的等式表⽰:
odds= p/ (1-p) = 某事件发⽣的概率/ 某事件不发⽣的概率
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =b0 b1X1 bkXk
如上,p表述具有某个特征的概率。在这⾥我们使⽤的是的⼆项分布(因变量),我们需要选择⼀个最适⽤于这种分布的连结函数。它就是Logit 函数。在上述等式中,通过观测样本的极⼤似然估计值来选择参数,⽽不是最⼩化平⽅和误差(如在普通回归使⽤的)。
Logistic要点:
(1)Logistic回归⼴泛⽤于分类问题;
(2)Logistic回归不要求⾃变量和因变量存在线性关系。它可以处理多种类型的关系,因为它对预测的相对风险指数使⽤了⼀个⾮线性的 log 转换;
(3)为了避免过拟合和⽋拟合,我们应该包括所有重要的变量。有⼀个很好的⽅法来确保这种情况,就是使⽤逐步筛选⽅法来估计Logistic回归;
(4)Logistic回归需要较⼤的样本量,因为在样本数量较少的情况下,极⼤似然估计的效果⽐普通的最⼩⼆乘法差;
(5)⾃变量之间应该互不相关,即不存在多重共线性。然⽽,在分析和建模中,我们可以选择包含分类变量相互作⽤的影响;
(6)如果因变量的值是定序变量,则称它为序Logistic回归;
(7)如果因变量是多类的话,则称它为多元Logistic回归。
(3)Cox回归
Cox回归的因变量就有些特殊,它不经考虑结果⽽且考虑结果出现时间的回归模型。它⽤⼀个或多个⾃变量预测⼀个事件(死亡、失败或旧病复发)发⽣的时间。Cox回归的主要作⽤发现风险因素并⽤于探讨风险因素的强弱。但它的因变量必须同时有2个,⼀个代表状态,必须是分类变量,⼀个代表时间,应该是连续变量。只有同时具有这两个变量,才能⽤Cox回归分析。Cox回
归主要⽤于⽣存资料的分析,⽣存资料⾄少有两个结局变量,⼀是死亡状态,是活着还是死亡;⼆是死亡时间,如果死亡,什么时间死亡?如果活着,从开始观察到结束时有多久了?所以有了这两个变量,就可以考虑⽤Cox回归分析。
正则化的回归分析可以避免(4)poisson回归
通常,如果能⽤Logistic回归,通常也可以⽤poission回归,poisson回归的因变量是个数,也就是观察⼀段时间后,发病了多少⼈或是死亡了多少⼈等等。其实跟Logistic回归差不多,因为logistic回归的结局是是否发病,是否死亡,也需要⽤到发病例数、死亡例数。
(5)Probit回归
Probit回归意思是“概率回归”。⽤于因变量为分类变量数据的统计分析,与Logistic回归近似。也存在因变量为⼆分、多分与有序的情况。⽬前最常⽤的为⼆分。医学研究中常见的半数致死剂量、半数有效浓度等剂量反应关系的统计指标,现在标准做法就是调⽤Pribit过程进⾏统计分析。
(6)负⼆项回归
所谓负⼆项指的是⼀种分布,其实跟poission回归、logistic回归有点类似,poission回归⽤于服从poission分布的资料,logistic回归⽤于服从⼆项分布的资料,负⼆项回归⽤于服从负⼆项分布的资料。
如果简单点理解,⼆项分布可以认为就是⼆分类数据,poission分布就可以认为是计数资料,也就是个数,⽽不是像⾝⾼等可能有⼩数点,个数是不可能有⼩数点的。负⼆项分布,也是个数,只不过⽐poission分布更苛刻,如果结局是个数,⽽且结局可能具有聚集性,那可能就是负⼆项分布。简单举例,如果调查流感的影响因素,结局当然是流感的例数,如果调查的⼈有的在同⼀个家庭⾥,由于流感具有传染性,那么同⼀个家⾥如果⼀个⼈得流感,那其他⼈可能也被传染,因此也得了流感,那这就是具有聚集性,这样的数据尽管结果是个数,但由于具有聚集性,因此⽤poission回归不⼀定合适,就可以考虑⽤负⼆项回归。
(7)weibull回归
中⽂有时⾳译为威布尔回归。关于⽣存资料的分析常⽤的是cox回归,这种回归⼏乎统治了整个⽣存分析。但其实夹缝中还有⼏个⽅法在顽强⽣存着,⽽且其实很有⽣命⼒。weibull回归就是其中之⼀。cox回归受欢迎的原因是它简单,⽤的时候不⽤考虑条件(除了等⽐例条件之外),⼤多数⽣存数据都可以⽤。⽽weibull回归则有条件限制,⽤的时候数据必须符合weibull分布。如果数据符合weibull分布,那么直接套⽤weibull回归⾃然是最理想的选择,它可以给出最合理的估计。如果数据不符合weibull分布,那如果还⽤weibull回归,那就套⽤错误,结果也就会缺乏可信度。weibull回归就像是量体裁⾐,把体形看做数据,⾐服看做模型,weibull回归就是根据某⼈实际的体形做⾐服,做出来的也就合⾝,对其他⼈就不⼀定合⾝了。cox回归,就像是到商场去买⾐服,⾐服对很多⼈都合适,但是对每个⼈都不是正合适,
只能说是⼤致合适。⾄于到底是选择⿇烦的⽅式量体裁⾐,还是选择简单到商场直接去买现成的,那就根据个⼈倾向,也根据具体对⾃⼰体形的了解程度,如果⾮常熟悉,⾃然选择量体裁⾐更合适。如果不⼤了解,那就直接去商场买⼤众化⾐服相对更⽅便些。
(8)主成分回归
主成分回归是⼀种合成的⽅法,相当于主成分分析与线性回归的合成。主要⽤于解决⾃变量之间存在⾼度相关的情况。这在现实中不算少见。⽐如要分析的⾃变量中同时有⾎压值和⾎糖值,这两个指标可能有⼀定的相关性,如果同时放⼊模型,会影响模型的稳定,有时也会造成严重后果,⽐如结果跟实际严重不符。当然解决⽅法很多,最简单的就是剔除掉其中⼀个,但如果实在舍不得,觉得删了太可惜,那就可以考虑⽤主成分回归,相当于把这两个变量所包含的信息⽤⼀个变量来表⽰,这个变量我们称它叫主成分,所以就叫主成分回归。当然,⽤⼀个变量代替两个变量,肯定不可能完全包含他们的信息,能包含80%或90%就不错了。但有时候我们必须做出抉择,你是要100%的信息,但是变量⾮常多的模型?还是要90%的信息,但是只有1个或2个变量的模型?打个⽐⽅,你要诊断感冒,是不是必须把所有跟感冒有关的症状以及
检查结果都做完?还是简单根据⼏个症状就⼤致判断呢?我想根据⼏个症状⼤致能确定90%是感冒了,不⽤⾮得100%的信息不是吗?模型也是⼀样,模型是⽤于实际的,不是空中楼阁。既然要⽤于实际,
那就要做到简单。对于⼀种疾病,如果30个指标能够100%确诊,⽽3个指标可以诊断80%,我想⼤家会选择3个指标的模型。这就是主成分回归存在的基础,⽤⼏个简单的变量把多个指标的信息综合⼀下,这样⼏个简单的主成分可能就包含了原来很多⾃变量的⼤部分信息。这就是主成分回归的原理。
(9)岭回归
当数据之间存在多重共线性(⾃变量⾼度相关)时,就需要使⽤岭回归分析。在存在多重共线性时,尽管最⼩⼆乘法(OLS)测得的估计值不存在偏差,它们的⽅差也会很⼤,从⽽使得观测值与真实值相差甚远。岭回归通过给回归估计值添加⼀个偏差值,来降低标准误差。
上⾯,我们看到了线性回归等式:
y=a b*x
这个等式也有⼀个误差项。完整的等式是:
y=a b*x e (误差项),  [误差项是⽤以纠正观测值与预测值之间预测误差的值]
=> y=a y= a b1x1 b2x2 .... e, 针对包含多个⾃变量的情形。
在线性等式中,预测误差可以划分为 2 个分量,⼀个是偏差造成的,⼀个是⽅差造成的。预测误差可能会由这两者或两者中的任何⼀个造成。在这⾥,我们将讨论由⽅差所造成的误差。岭回归通过收缩参数λ(lambda)解决多重共线性问题。请看下⾯的等式:
在这个等式中,有两个组成部分。第⼀个是最⼩⼆乘项,另⼀个是β2(β-平⽅)和的λ倍,其中β是相关系数。λ被添加到最⼩⼆乘项中⽤以缩⼩参数值,从⽽降低⽅差值。
岭回归要点:
1)除常数项以外,岭回归的假设与最⼩⼆乘回归相同;
2)它收缩了相关系数的值,但没有达到零,这表明它不具有特征选择功能;
3)这是⼀个正则化⽅法,并且使⽤的是 L2 正则化。
(10)偏最⼩⼆乘回归
偏最⼩⼆乘回归也可以⽤于解决⾃变量之间⾼度相关的问题。但⽐主成分回归和岭回归更好的⼀个优点是,偏最⼩⼆乘回归可以⽤于例数很少的情形,甚⾄例数⽐⾃变量个数还少的情形。所以,如果⾃变量之间⾼度相关、例数⼜特别少、⽽⾃变量⼜很多,那就⽤偏最⼩⼆乘回归就可以了。它的原理其实跟主
成分回归有点像,也是提取⾃变量的部分信息,损失⼀定的精度,但保证模型更符合实际。因此这种⽅法不是直接⽤因变量和⾃变量分析,⽽是⽤反映因变量和⾃变量部分信息的新的综合变量来分析,所以它不需要例数⼀定⽐⾃变量多。偏最⼩⼆乘回归还有⼀个很⼤的优点,那就是可以⽤于多个因变量的情形,普通的线性回归都是只有⼀个因变量,⽽偏最⼩⼆乘回归可⽤于多个因变量和多个⾃变量之间的分析。因为它的原理就是同时提取多个因变量和多个⾃变量的信息重新组成新的变量重新分析,所以多个因变量对它来说⽆所谓。
(11)多项式回归
对于⼀个回归等式,如果⾃变量的指数⼤于1,那么它就是多项式回归等式。如下等式所⽰:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。