改进的强相关数据的变量选择方法
徐若南;唐烁;王旭辉
【摘 要】针对高维强相关数据的变量选择问题,本文提出了改进的变量选择方法.该方法先利用自适应弹性网方法(Aenet)在原始的强相关数据上建立模型,选出对响应变量起重要作用的组变量和独立变量;再通过偏最小二乘方法(PLS)对选出的变量作模型估计;最后,将两种方法得到的估计系数做线性组合,并以此系数来建立回归模型.新模型具有精度高、解释性好的优点,数值实验验证了该方法的有效性.
【期刊名称】《大学数学》
【年(卷),期】2017(033)001
【总页数】7页(P10-16)
【关键词】变量选择;自适应弹性网;组效应;偏最小二乘
【作 者】徐若南;唐烁;王旭辉
【作者单位】合肥工业大学数学学院,合肥230009;合肥工业大学数学学院,合肥230009;合肥工业大学数学学院,合肥230009
【正文语种】中 文
【中图分类】O213.9
随着当代经济与技术的发展,数据间存在高维数、强相关、冗余和噪声大等一个或多个问题的现象,大大加重了数据分析的难度.变量选择作为数据分析的重要方法之一深受广大学者的青睐.首先,文献[1]提出了一种以系数的绝对值函数做惩罚的新型变量选择技术Lasso,该方法与早期的向前选择变量回归、逐步回归[2,3]及岭回归等方法相比,同时具备了子集选择的可解释性和岭回归的高精度的优点.随后,文献[4]提出的最小角回归(Lars)算法很好地解决Lasso的计算问题.然而,对于高维强相关的稀疏数据而言,Lasso 方法最多只从p个因素中选出N个变量,且缺少组效应能力的局限性也逐渐凸出.文献[5]提出了增加岭罚的弹性网(Enet)方法.该方法能有效地进行高维变量选择,并具有自变量分组效应.此外,文献[6]还发现,Lasso估计对于所有的系数均使用了等强度的压缩,且Lasso估计不具有“oracle”性质(变量选择的一致性及其估计的渐进正态性),故提出了一种AdaptiveLasso估计方法,该方法对不同的系
数使用不同程度的压缩,并具备“oracle”性质.Zou结合弹性网方法和AdaptiveLasso估计方法,提出了自适应弹性网 (Aenet)的新方法[7],且满足在一定条件下其具有“oracle”性质,使该方法在解决高维共线性问题时较其他“oracle”性质方法有明显优势.另一方面,Yuan和Lin等人对组变量选择进行了拓展和探究,先后提出了GroupLasso方法[8]、CAP方法[9]等组变量选择方法,但针对某些复杂的遗传疾病领域,基因对疾病的控制不但呈现强相关的组特性,而且对基因组中哪些基因起决定作用也越发关注,Simon等人发现,上述选择组变量的方法,要么一组变量全被选入要么全被剔除,无法实现在组内选择重要的变量,从而提出了SparseGroupLasso复合函数惩罚的双层选择方法[10].
本文在前人工作的基础上,对高维强相关数据的变量选择问题进行研究,把偏最小二乘方法在解决多重共线性问题[11]时的优势和自适应弹性网方法的组效应特性相结合,实现了更高效地解决强相关数据的变量选择问题.
给定一训练数据集,其中x(i)=(xi1,xi2,…,xip)T是具有p个未知参数的第i个样本,yi为对应的第i个样本标签,令y=(y1,y2,…,yn)T是响应变量,X=(x1,x2,…,xp)为模型矩阵,xj=(x1j,x2j,…,xnj)T(j=1,2,…,p)是p个预测变量.不失一般性,假设预测变量是标准化的且响应变量是中心化的,即
考虑如下的线性模型
其中β=(β1,β2,…,βp)是回归系数向量,ε=(ε1,ε2,…,εn)通常为高斯噪声.预测的输出响应可表示为
其中p)为待估计的系数向量.一般情况,可用最小二乘方法(OLS)估计得到.
Lasso方法[1]是一种带惩罚函数的变量选择方法,即
其中罚项|βj|为回归系数的L1范数,λ1>0为正则参数,可通过调节λ1的值来控制Lasso方法解的稀疏性,Lasso方法估计的解可通过坐标下降方法[12]及Lars方法[4]等求得.
为了处理高维数据问题,文献[5]提出了弹性网方法
其中λ1>0,λ2>0为正则化参数.岭罚项使弹性网具有组效应——将彼此高度相关且回归系数绝对值相近的变量划分为一个组,进而将其同时选出或同时移除.由于该方法可看作是增广空间的Lasso方法,故Lars方法及坐标下降方法[12]等算法对求解同样适用.
弹性网的组效应极大地提高了强相关数据的变量选择问题,但没能实现对每个回归系数进行
自适应的惩罚. 自适应弹性网方法在弹性网的基础上增加权值,实现了对重要的变量加以小惩罚,不重要的变量加以大惩罚,最终达到自适应地选择组变量的效应.
3.1 自适应弹性网的简介
自适应弹性网可以看作是弹性网和AdaptiveLasso的有效结合[7],该惩罚函数是加权L1范数和L2范数惩罚的凸组合,故其局部最优解也是全局最优解,其形式如下
规定权重系数为
其中γ为一正常数,但通常弹性网具有稀疏形式,故可用
代替(7)式,或规定当=0时,j=∞.其中>0,λ2>0为正则化参数,与弹性网的参数λ1和λ2相比,和λ1的作用是稀疏估计,故一般允许不同;而弹性网与自适应弹性网的λ2正则参数主要都用于实现组效应,即使λ2→∞,组的效应也不会被明显改善,故选择同一正则参数λ2,使计算上更有助自适应弹性网的求解.
令自适应弹性网的估计值,λ2)简记为,λ2),若,则有
成立.其中xj为简单样本相关系数,
为两回归系数路径间的差异.分析(8)式,当变量xi和xj高度相关时,即ρ=1,(若ρ=-1则考虑-xj),有→0,且弹性网此时也具有组效应,即j(Enet)|→0,故j|→0,故(8)式定量表明了若任意两变量间存在高度相关性,则自适应弹性网求解的回归系数路径几乎相同.
3.2 算法实现与参数选取
在算法方面,自适应弹性网方法与弹性网方法类似,都可通过Lars方法、坐标下降法等解决Lasso方法实现模型的快速求解.观察(6)式发现,给定数据集和,可在增广空间上定义数据集,其中,则有(6)式等价于(9)式
即对AdaptiveLasso模型回归系数的估计,又因可以通过变形使(10)式的AdaptiveLasso与下式等效
故*.其中,的值可通过一维交叉验证方法得到,从而大大简化了模型的计算量.
设有p个自变量和q个因变量,进行n次观测后,得到预测矩阵X=(x1,x2,…,xp)和响应矩阵Y=(y1,y2,…,yq).记X和Y经标准化处理后的数据矩阵分别为X0和Y0.
首先,分别在X0和Y0中提取第一主成分t1和u1,并使其满足
(i)t1和u1应尽可能多地携带它们各自数据矩阵中的信息,即
(ii)t1和u1的相关程度应尽可能达到最大,即
其中t1=X0w1,u1=Y0c1分别是x1,x2,…,xp和y1,y2,…,yq的线性组合,w1称为X0的第一个轴,c1称为Y0的第一个轴,且满足‖w1‖=1和‖c1‖=1.
由(12)、(13)式得,t1和u1满足
(14)式等价于如下的优化问题
(15)式可通过拉格朗日乘数法求解,并得出w1是矩阵X0的最大特征值的单位特征向量,c1是对应矩阵Y0的最大特征值的单位特征向量.
在第一个成分t1和u1被提取后,分别施行X0对t1和Y0对t1的回归,若回归方程已达到满意的精度,则算法终止;否则,将利用X0被t1解释后的残余信息及Y0被t1解释后的残余信息进行第二轮的成分提取.如此反复,直至达到满意的精度为止,其中,主成分个数通过交叉验证方法调试以求得最佳值.又因为主成分均为原始变量x1,x2,…,xp的线性组合且相互独立,故经变换后,可得到预测效果较好的原始变量的线性选择模型.
对于数据间的相关性,往往需要设定一个值来衡量数据间的相关程度.不失一般性,通常我们以两个变量间的简单相关系数
来衡量其变量的相关性.并在本文中规定,当两变量间的简单相关系数ρ≥0.75时,则说明两变量间具有强相关性.强相关数据在复杂的遗传疾病的基因选择及计算生物学等领域中广泛存在.
一方面,自适应弹性网方法在解决强相关的数据问题时有较好的组效应.虽然模型的复杂度上较弹性网方法有很大的精简,但模型的预测精度有时却并未有明显的提高(见表2).另一方面,由偏最小二乘具有将强相关数据变换为相互独立的主成分的特性,故能较好地处理多重共线性问题,获得较理想的预测精度,但其模型的解释性却很差.
鉴于以上两方面,为了在解决高维强相关数据的多元线性回归问题时同时满足较好的预测精度和模型解释性,我们提出改进的强相关数据的变量选择方法(Aenet_PLS),具体算法步骤如下:
算法步骤
步骤1: 输入训练集上的原始数据集,权重矩阵W和正则参数λ2;
步骤2: 用自适应弹性网方法计算数据集上的回归系数,记作Aenet;
步骤3: 利用偏最小二乘方法进一步处理Aenet系数所对应变量的数据,得到回归系数记作PLS;
步骤4: 令,其中μ∈[0,1],利用回归系数建立新的回归模型;
步骤5: 输出计算误差RMSE,R2和变量非0个数,
正则化参数的自适应估计
其中参数μ的大小选取依赖于回归系数Aenet和PLS的结果误差比例,RMSEAenet/RMSEPLS越小,μ越小,反之亦然.计算误差的公式如下
其中(i=1,2,…n,j=1,2,…,p).
6.1 模拟实验
一般的,我们的模拟数据由模型产生.本例中包含训练集和测试集,正则调和参数的选取依赖于训练集上的5折交叉验证,并通过相对误差RMSE和选择精度标准(TP和FP)来比较测试集上的各变量选择方法的优劣,其中TP代表正确匹配非0系数的个数,FP代表错误匹配0系数的个数.对模拟数据重复计算100次,取中值RMSE和TP(FP)为最终的衡量结果.
例1 我们分别模拟100个训练集和400个测试集,假设正确的回归参数为
预测变量由如下方式产生
其中~N(0,1),i.i.d.,i=1,…,15.此处不失一般性,为与真实数据标准化后的效果保持一致,我们设各个变量均设为服从N(0,1)的正态分布,也更便于后续的计算工作.
此例中有三个同等重要的5变量的组,而每个组中又包含2个与其余3个重要变量高度相关的噪音变量,另外有5个对响应变量有影响的独立变量,其余25个为噪音变量.对该数据运
用Lasso方法,弹性网方法等多种变量选择方法,得出其相对误差和精度选择标准的数据见表1所列.
观察表格中数据结果,可以看出弹性网和自适应弹性网方法的组效应在求解强相关数据问题时有很大优势.而且,可明显看出,增加了偏最小二乘的改进强相关变量方法Aenet_PLS无论是在预测精度上,还是模型的解释性上都显示出更好的效果.
6.2  数值实例
例2 本数据是UCI于2009年发布的一份关于社区与犯罪的数据集.该数据集包含了来自1990年美国普查的社会经济数据、美国LEMAS调查的法律实施数据和1995年FBI_UCR的犯罪数据,共统计了美国1994个与响应变量人均暴力犯罪有关的社区数据,其中包括了122个与犯罪有合理关联的数据属性,如城镇人口的百分比,平均家庭收入以及涉及执法等相关属性.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。