回归模型的特征筛选⽅法---最优⼦集逐步回归
正则化的回归分析
(BestSubsetSelection,St。。。
线性回归模型⽐较常见的特征选择⽅法有两种,分别是最优⼦集和逐步回归。此外还有正则化,降维等⽅法。
1,最优⼦集(Best Subset Selection):从零号模型(null model)M0开始,这个模型只有截距项⽽没有任何⾃变量。然后⽤不同的特征组合进⾏拟合,从中分别挑选出⼀个最好的模型(RSS最⼩或R2最⼤),也就是包含1个特征的模型M1,包含2个特征的模型M2,直⾄包含p个特征的模型M p。然后从这总共p+1个模型中选出其中最好的模型(根据交叉验证误差,C p,BIC或adjusted R2)(注:为什么不能⽤RSS或R2来衡量?因为增加任何特征,模型的训练RSS只会变⼩,R2只会增⼤)。这个最好模型所配置的特征就是筛选出的特征。
优点:因为遍历了所有可能的特征组合,因此筛选出的特征必定是最优的。
缺点:总共要拟合2p个模型,计算量⾮常⼤。
2,逐步回归(Stepwise Selection)
从计算的⾓度来讲,最优⼦集法只适⽤于最多30~40个特征,从统计学的⾓度来看,如果特征很多,最优⼦集法很容易产⽣过拟合的问题(⼀般来说,当p<10时可以⽤最优⼦集法)。因此在特征较多的情况下,适⽤逐步回归法来进⾏特征选择。
a. 前进法(Forward Selection):从零号模型(null model)M0开始,这个模型只有截距项⽽没有任何⾃变量。然后⼀个个地加⼊p个特征,保留RSS最⼩或R2最⼤的那个特征,此时这个模型记为M1。然后再在这个模型的基础上⼀个个地加⼊剩余的p-1个特征,仍然保留RSS最⼩或R2最⼤的那个特征(模型M2)。这样重复操作,直⾄包含p个特征的模型M p。然后从这总共p+1个模型中选出其中最好的模型(根据交叉验证误差,C p,BIC或adjusted R2)。这个最好模型所配置的特征就是筛选出的特征。
(注:计算量⼤约是p2)
b. 后退法(Backward Selection):从包含全部p个特征的模型M p开始,然后⼀个个地移除p个特征,保留RSS最⼩或R2最⼤的那个模型,现在是包含p-1个特征的模型,称为模型M p-1,继续移除剩余的p-1个特征。这样重复操作,直⾄包含0个特征的模型M0。然后从这总共p+1个模型
中选出其中最好的模型(根据交叉验证误差,C p,BIC或adjusted R2)。这个最好模型所配置的特征就是筛选出的特征。
(注:计算量⼤约是p2)
(注:后退法不能⽤于p>n的情况)
c. 混合法(Mixed Selection):从零号模型(null model)M0开始,这个模型只有截距项⽽没有任何⾃变量。和前进法⼀样加⼊特征,区别在于当某个特征的p值⼤于某个阈值时,移除该特征。重复这样的操作,直⾄模型中所有的特征都有⾜够低的p值,并且如果其余的特征加⼊其中会有超过某个阈值的p值。
前进法和后退法都属于贪⼼算法,能够局部达到最优,但是从全局来看不⼀定是最优的。前进法虽然每⼀次都能选取最显著的⼀个⾃变量,但在实际情况下,很可能有的⾃变量在开始时是显著的,但是在其余⾃变量添加进去之后,它就变得不显著了,⽽前进法却没有提供“剔除”该变量的选项。⽽后退法则很
有可能会遗漏⼀些很重要的变量,虽然刚开始它可能并不显著。但是混合法会选⼊本⾝对模型⽬标没有多少贡献的特征,容易导致过拟合。这⼏种⽅法在特征有共线性问题的时候会出问题。因此,我还是倾向于⾃⼰⼿动进⾏选择,⽽不是完全依靠机器选择。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。