第40卷第5期Vol.40㊀No.5
重庆工商大学学报(自然科学版)
J Chongqing Technol &Business Univ(Nat Sci Ed)
2023年10月Oct.2023
基于弹性网惩罚的复合分位数回归估计
张国浩
重庆工商大学数学与统计学院,重庆400067
摘㊀要:针对高维数据的建模分析问题,提出一种基于弹性网络法和复合分位数回归相结合的稳健估计方法㊂在该
估计方法中,所提出的模型能够有效进行变量选择与系数压缩,并处理数据间的多重共线性与组效应问题,在大数据时代下具有较广的适应性㊂同时,与已有的惩罚最小二乘估计和惩罚分位数回归估计相比,该估计方法不仅放宽了对模型误差项的分布要求,而且综合考虑了多个分位点的损失,在面对离
值或呈现尖峰㊁厚尾分布数据时能够保持更强的稳健性和抗干扰性㊂在一定条件下,对所构建模型估计的相合性与稀疏性进行了理论分析,结果表明:所提出的模型能够将不相关的变量完全压缩至零,且估计量和真实系数以趋于1的概率相同㊂此外,在数值模拟方面,设置了5种误差项分布条件,根据设定的4项指标,通过与其他惩罚函数模型以及损失函数模型进行比较,结果表明新提出的方法具备更好的稳健性与有效性㊂
关键词:变量选择;稳健估计;弹性网;复合分位数回归
中图分类号:O212.7㊀㊀文献标识码:A ㊀㊀doi:10.16055/j.issn.1672-058X.2023.0005.014
㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀
㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀
收稿日期:2022-06-22㊀修回日期:2022-08-19㊀文章编号:1672-058X(2023)05-0104-09基金项目:重庆市教委科学技术研究计划重大项目(KJZD-M202100801).
作者简介:张国浩(1998 ),男,贵州遵义人,硕士生,从事高维数据分析及应用研究.
引用格式:张国浩.基于弹性网惩罚的复合分位数回归估计[J].重庆工商大学学报(自然科学版),2023,40(5):104 112.
ZHANG Guohao.Compound quantile regression model with elastic net penalty J .Journal of Chongqing Technology and Business
University  Natural Science Edition  2023 40 5  104 112.
Compound Quantile Regression Model with Elastic Net Penalty ZHANG Guohao
School of Mathematics and Statistics Chongqing Technology and Business University Chongqing 400067 China
Abstract Aiming at the problem of modeling and analysis under high-dimensional data a robust estimation method based
on elastic network method and composite quantile regression was proposed.In this estimation method the proposed model can effectively perform variable selection and coefficient compression and deal with multicollinearity and group effects between data and has wide adaptability in the era of big data.At the same time compared with the existing penalized
least squares estimation and penalized quantile regression estimation this estimation method not only relaxes the
distribution requirements of the model error term but also comprehensively considers the loss of multiple quantiles which can maintain stronger robustness and anti-interference in the face of outliers or data with spiky thick-tailed distributions.
Under certain conditions a theoretical analysis of the consistency and sparsity of the constructed model estimates is carried out.The results show that the proposed model can completely compress uncorrelated variables to zero and the estimate
and the true coefficient have the same probability of tending to 1.In addition in terms of numerical simulation five kinds of error term distribution conditions are set.According to the four indicators set the comparison with other penalty function models and loss function models is carried out.The results show that the newly proposed method has better robustness and
effectiveness.
Keywords variable selection robust estimation elastic net composite quantile regression
第5期张国浩:基于弹性网惩罚的复合分位数回归估计
1㊀引㊀言
高维数据的建模分析一直是学者们讨论的热门话题㊂针对其分析过程中的诸多难点,国内外学者一般围绕两个方面进行研究,一是如何从成千上万个变量中筛选出对预测因子真正起重要作用的变量以降低模型的复杂度,提高模型的解释性;二是如何利用更稳健的估计方法应对异方差结构数据并抵抗离值和极端点影响㊂
第一个方面研究的便是变量选择问题㊂Akaike[1]与Schwarz[2]最先提出AIC与BIC准则,他们均采用子集选择思想来减小模型维度以提高计算效率,但是两者过拟合与不稳定的缺点却使模型的预测能力变得很差㊂这也使后来的学者将大量的工作用于发展可以同时进行变量选择和系数估计的正则化方法,此类方法的特性是利用惩罚函数对待估系数进行限制,当采用岭回归[3]作为惩罚函数时,回归系数将会趋向于零收缩,但是永远无法收缩到零,因此岭回归并不会提供一个易于解释的模型㊂而当采用LASSO[4]惩罚时,模型将通过使一些系数缩小到零来产生可解释的模型,以此实现变量选择,SCAD[5]惩罚则是对称且非凸性的,它虽然可以产生稀疏的模型,但迭代算法却极其缓慢,难以适应高维数据情形,MCP[6]惩罚与SACD同样因其非凸性,导致拟合模型的数值计算问题充满挑战㊂此外,由Zou等[7]提出的弹性网络法的表现尤其出,因其结合了LASSO惩罚和岭回归的优势,可以有效解决多重共线性和变量选择问题,
特别是对于协变量数量远远大于观测值数量时,弹性网格外有效㊂卢[8]将弹性网推广到Logistic模型和Poisson模型,证明该方法具有将强相关性协变量全部选入或剔除模型的能力;黄[9]将该方法应用在部分线性模型中,证明了其具有Oracle性质;李[10]将该方法应用到平衡纵向数据模型的变量选择中,证明了该方法的相合性㊂为了实现更稳健的估计,Koenker等[11]提出更具鲁棒性的分位数回归㊂由于其更宽松的前提假设以及能够同时得到多个全面刻画响应变量整体条件分布特征的优势,逐渐被学者认为是最小二乘法的有利替代,并开始与变量选择方法结合㊂例如Fan[12]提出自适应
LASSO惩罚的分位数回归模型,该模型在变量选择与抵抗极端值影响方面都达到了极佳的效果,但并没有解决数据中的组效应问题;Su等[13]将弹性网与分位数回归结合,不仅在稳定估计的同时保留了变量选择的准确性和计算效率,还解决了数据中的组效应问题,但是此方法的估计效率十分依赖分位点的选择且并未解决分位数回归中尾部的分位点过高或是过低造成的预测值左偏及右偏问题㊂
综上而言,各类变量选择方法虽然都在一定程度上降低了模型的维度,有的甚至能灵活处理多重共线性与组效应问题,但绝大多数理论却受最小二乘法的制约,难以保持稳健的特性㊂同时,分位数回归估计因其稳健的特性被Fan[12]和Su[13]考虑与变量选择方法结合并取得了一定的成效,可是两者模型的估计效率却依赖于分位点的选择,这使得模型在实际使用中效果不佳㊂
本文在Su等[13]的弹性网与分位数回归结合及Zou等[14]的复合分位数估计的基础上,同时考虑多个分位
点的损失来优化模型中的损失函数,进一步提出弹性网惩罚复合分位数回归模型㊂所提出的模型具有更强的稳健性与有效性,在理论上证明了该模型估计的稀疏性和相合性,并在数值模拟中也表明该模型优于其他估计方法㊂
2㊀模型简述
2.1㊀复合分位数回归
考虑一般线性回归模型:
y
i=x T iβ+εi(1)其中,x T i=x i1,x i2, ,x in
()为解释变量,y i为响应变量,β为回归系数向量,ε
i为随机误差项㊂
假设ε的τ分位数为b∗τ,其中τɪ0,1()已知, Koenker和Bassett提出的分位数回归可通过求解式(2)得到回归系数的解:
b^τ,β^QR
()=argmin
b,β
1
n
ðn iρτy i-b-x T iβ
()(2)其中,ρτu()=u㊃τ-I u<0
()
(),0<τ<1为分位数回归的损失函数㊂区别于最小二乘法只能估计响应变量的中心趋势,分位数回归能够得到响应变量各个位置的条件分布,有效避免了极端值的影响,其适应性和稳健性都得到了明显提高㊂然而,分位数回归在实际应用中,预测效率会受到分位点选择的制约,人们往往难以选择合适的分位点来构建模型㊂在这样的背景之下,Zou
501
重庆工商大学学报(自然科学版)第40卷
和Yuan 便以分位数回归为基础,提出了复合分位数回
归的概念㊂
选取分位点0<τ1<τ2< <τK <1,在式(1)中,通过式(3)目标函数便可得到复合分位数回归系数的估计:
b ^
1,b ^
2, ,b ^
K ,β^
CQR ()=
argmin
b 1
,b 2
, ,b K
,βðK k =1ðn
i =1ρτk
y i -b k -x T i β(){}(3)
其中,τk =k /K +1(),k =1,2, ,K ㊂复合分位数的目标函数是多个分位数回归方程的加总最小和,且因其分位点的强制选择,包含的信息也更丰富,考虑不同分位点的变化,得到了一个不随τ值变化的估计系数,具备更强的稳健性㊂
2.2㊀弹性网惩罚复合分位数模型
考虑如下统计模型:
Y =Xβ+ε
其中,Y =y 1,y 2, ,y n ()T 为n 维响应变量,X =
(x 1,x 2, ,x n )T =(x ~
1,x ~
2, ,x ~
p )为n ˑp 维设计矩阵,β=β1,β2, ,βp ()T 为p 维回归系数向量,ε=(ε1,ε2, ,εn )T 为n 维随机误差向量㊂
本文提出基于弹性网惩罚复合分位数回归模型
(CQ -EN),即利用如下正则化问题来估计回归系数β:
min
b 1,b 2, ,b K ,β
{ðK
k =1ðn
i =1
ρ
τk
y i -x T
i
β-b k ()+
㊀㊀nλn  β 1+
nμn 2
β 22
}
其中, β 1=ðp i =1βi 为β的L 1范数, β 2=ðp i =1β2
i 为β的L 2范数,并且λn ,μn >0为正则化系数,
nλn  β 1+
nμn 2
β 2
2
为弹性网惩罚项㊂
在高维线性回归问题中,为保证模型的可识别性,同时提升模型的拟合精度,真实的系数向量β∗
往往被假定为稀疏的,即仅有一小部分非零㊂假设非零元素的数量为s n ,不失一般性,假定真实的模型为M ∗=supp β∗()=1,2, ,s n {},其补集M c ∗={s n +1,s n +2, p n }表示噪声协变量的指标集,同时记β
=
β∗1
()T
,0T
(),并将设计矩阵重写为X =S ,Q (),其中:
S =S 1,S 2, ,S n ()T =x ~
1,x ~
2, ,x ~
s n ()
Q =Q 1,Q 2, ,Q n ()T
=x ~
s n +1,x ~
s n +2, ,x ~
p n ()
此处子矩阵S 是非零系数的信号协变量矩阵,Q 则是剩余的噪声协变量矩阵,本文将设计矩阵标准化使得
每一列的L 2范数均为n ㊂
3㊀模型的统计性质
为了评估所提出的新方法,本节将建立CQ -EN 模
型的统计性质㊂首先,定义利用Oracle 信息协助得到的正则化估计(ORE)为
β^
o ,b ^
k ()=arg min βɪM ,b
L n β,b ()
其中,β^o =β^
o 1
()T
,0T ()T ㊂本节将表明ORE 以接近于1的概率估计出真实系数向量,且当满足一些条件时,CQ -EN 估计量享有与ORE 一样的性质㊂为此,参考
Fan [12],首先对n 维误差向量ε的分布以及设计矩阵作出如下假定㊂
(A1)㊀一致存在大于零的常数c 1和c 2,对任意满
足u ɤc 1的u ,有f i u (){}n i =1一致有界且不为0和ɕ,
并满足F i u +b ∗k ()-F i b ∗k ()-uf i b ∗k ()ɤc 2u 2
,其中,k
=1,2, ,K ,f i (u )与F i (u )分别为εi 的密度函数与分布
函数㊂
(A2)㊀定义H k =diag f 1b ∗k (), ,f n b ∗
k (){},则
n -11,S ()T H k 1,S ()的特征值介于c 0与c -1
0之间,且
κn ʉmax ij
x ij =o n s n -1()㊂
(A3)㊀对后面定理1中定义的γn ,有 1
n
Q T H k S  2,ɕ<
λn
2γn
,其中,对于矩阵A 与向量x , A  2,ɕ=
sup x ʂ0
Ax  ɕ/ x  2,并且,λn >
log p n ()/n ,其中,
log p n =o n b (),b ɪ0,1(), x  ɕ=max 1ɤi ɤn
x i ㊂
(A1)是为了限制函数f i (u )的局部变动幅度,意味
着任意f i (u )在b ∗k 周围是Lipschitz 连续的,当分布函数的二阶导数存在且有界时,(A1)成立,常用的分布,如Laplace 和柯西分布均满足这一条件㊂(A2)是用来
限制信号协变量矩阵S 和设计矩阵X 的规模,当设计矩阵X 产生于某种分布式,上述条件中κn 的界以渐近
1的概率满足,例如X 产生于次指数分布时,若s n =
n /log p (),则κn 的界以渐近1的概率满足㊂(A3)则
是为了控制设计矩阵X 与信号变量和噪声变量矩阵列向量的相关性,从而进行必要限制,使得该估计在没有
601
第5期
正则化的回归分析可以避免张国浩:基于弹性网惩罚的复合分位数回归估计
Oracle 信息协助时也具备ORE 的性质㊂定理1㊀若λn s n κn ң0,μn s n κn ң0,且条件(A1)
(A2)成立,则存在常数c 1,c 2>0使得
P max 1ɤk ɤK
β^
o 1-β∗1 22+b ^
k -b ∗k ()2()ɤγ2n ()ȡ1-c 1n
-c 2s n
其中,γn =C s n λn +μn +log n ()/n (),C 为大于零的常数㊂
定理1是用来表明β^
o 是真实向量β∗
的相合估计,且是一致的,并且以趋于1的概率估计出真实系数向量的正确信号㊂但是,这是利用Oracle 信息寻信号协变量位置后得到的效果,真实情况下,信号协变量的位置是未知的㊂因此定理2将表明在没有Oracle 信息的情况下,选取适当的λn ,μn 后,CQ -EN 模型估计量会以趋于1的概率享有和ORE 相同的性质㊂
定理2㊀设max j
βj =o λn /μn (),γn s n 3/2κ2n log 2n ()
2
=o nλ2n (),κn γn
2
=o λn (),且λn >21+c ()log p n ()/n ,c 为
大于零的常数,则当条件(A1) (A3)成立时,目标函数L n β,b ()至少存在一个全局最小值β^
=β^
o 1()T
,β^
T 2,b ^
k (),且以大于1-c 1n -c 2s n
的概率满足以下两
个性质:
(1)β^
2=0㊂
(2)max 1ɤk ɤK
β^o 1-β∗1 22+b ^
k -b ∗k ()2[]ɤγ2
n ㊂
4㊀数值模拟
本节将通过数值模拟以确定所提出估计方法的有限样本性质㊂考虑模拟数据来自高维线性回归模型:y i =x T
i
β+εi
其中,观测样本n =100,参数数量p =400,协变量x ~0,ðx (),其中ðx ()i ,j =0.5
i -j
,真实的回归系数向量
被固定为
β=2,1.5,0,0.8,0,1,1.75,0,0.75,0,0.3,0, ,0{}考虑误差向量来自以下5个分布,标准正态分布ε~N 0,1();被少部分污染的正态分布MN1:ε~0.9N 0,1()+0.1N 0,25();Laplace 分布;自由度为4的t 分
布ε~t 4();Cauchy 分布㊂
本文将通过计算4个值来评估所提出的方法㊂(1)L 1损失:即 β^-β∗ 1㊂
(2)L 2损失:即 β^
-β∗ 2㊂
(3)FP:噪声协变量被选入模型的个数㊂
(4)FN:信号协变量未被选入模型的个数㊂同时,为了评价与比较,本文将在每种误差分布条件下将CQ -EN 模型分别与以下方法进行对比:(1)Q -EN [13]:弹性网惩罚的分位数回归,其中τ=
0.5㊂
(2)CQ -LASSO:LASSO 惩罚复合分位数回归㊂
(3)CQ -Ridge:Ridge 惩罚复合分位数回归㊂
(4)EN [7]:弹性网惩罚最小二乘回归㊂
比较CQ -EN,Q -EN,EN 可以反映在同样的惩罚函数下,不同的损失函数在处理各类误差分布情形时的有效性,而比较CQ -EN,CQ -LASSO,CQ -Ridge 是用来分析复合分位数回归在不同惩罚函数下的性能,模拟结果如表1所示,其中各项数值均为模拟100次的均值㊂
表1㊀相关协变量的模拟结果
Table 1㊀The simulation results of related covariates
误差项评估项CQ -EN
Q -EN EN CQ -LASSO CQ -Ridge N 0,1()
L 1损失
6.045  5.851
7.719
11.8039.236L 2损失  3.928  3.67816.26725.967  5.378FP
152.380140.81532.420
10.093393FN 0.2800.2670.356  1.2690MN1
L 1损失
5.7207.0647.10511.8939.562L 2损失  3.679  4.80714.19923.592  5.771FP
136.40169.33826.191
63.803393FN 0.1120.1470.828
0.4690Laplace
L 1损失
5.234  5.93710.26712.6259.137L 2损失  3.155  3.72123.24329.754  5.296FP
131.245144.37238.613
66.445393FN 0.3810.4330.273  1.9240t 4()
L 1损失  2.714  3.4138.742  4.231  6.244L 2损失  2.871  3.41418.5269.161  3.261FP
37.61946.96446.356
1.569393FN    5.129  6.5100.739
2.3660Cauchy
L 1损失
4.607
5.73612.184
93.604
6.138L 2损失  6.0328.3235
7.749177
8.9985.413
FP
38.68556.63719.466
130.26393FN    6.253
6.592
7.296
5.04
首先比较CQ -EN,Q -EN,EN 模型,从结果可以看出:对于MN1情形,CQ -EN 在所有4项指标中均优于
7
01
重庆工商大学学报(自然科学版)第40卷
其余两者;对于Cauchy 情形,本文所提出的模型也明显具有更低的L 1,L 2损失和更小的FN;对于t 4()情形,CQ -EN 具有更小的L 1,L 2损失和FP;对于Laplace 和N 0,1()情形,CQ -EN 与Q -EN 模型在L 1和L 2损失表现上平分秋,其中Q -EN 模型在N 0,1()情形表现更好,而EN 则在FP 和FN 的表现上优于CQ -EN 与Q -EN 模型㊂总体而言,在面对具有重尾分布和异常值,如t 4()等情形时,CQ -EN 的表现明显优于Q -EN 与EN,这表明复合分位数回归比其余两者具有更稳健的特性㊂
此外,与CQ -Ridge 和CQ -LASSO 相比,本文所提出的模型除Cauchy 情形外,L 1和L 2损失都明显更低,对于Cauchy 情形,CQ -Ridge 具有更小的L 2损失,这是因为Ridge 惩罚项的良好系数压缩能力,但是它却选择了模型的所有变量,并未达到变量选择的目的㊂对于N 0,1(),MN1,Laplace,t 4()情形,CQ -LASSO 具有明显更小的FP,这表明LASSO 作为惩罚项时,更倾向于选择真正的变量进入模型,从而严格进行筛选㊂同时,对于N 0,1(),MN1,Laplace 情形,CQ -EN 具有更小的FN,这表明该模型倾向于剔除大量不相关变量㊂对于Cauchy 情形,CQ -EN 与CQ -LASSO 在FN 与FP 上的表现各有突出,这体现了CQ -EN 模型有能力选择更多重要的变量进入模型,而CQ -LASSO 则更倾向于剔除不相关的变量㊂
总体而言,CQ -EN 模型不仅在各种误差分布情形下均保持了优异的表现,产生了稀疏的模型解,而且在重尾分布和离值情形下,展现了优越的性能㊂
5㊀定理的证明
本节将给出定理1和定理2的证明过程㊂为了简单和方便,让C 表示一个正常数,每次出现可能是不同的值,在开始证明前,先给出几个引理㊂
引理1(Fan [12])㊀
若(A2)成立,则对任意t >0,有
P Z nk M n ()ȡ4M n s n /n +t ()ɤ
㊀㊀exp -nc 0t 2/8M n 2()(),k =1,2, ,K 下面引理是来自Bühlmann [15]中的Hoeffding 不
等式㊂
引理2㊀设Z 1,Z 2, ,Z n 是取值于某个空间Γ的独立随机变量,γ为Γ上的实值函数,若存在正实数C 1,C 2, ,C n ,使得
E γZ i ()()=0,γZ i ()<C i ,i =1,2, ,n
则对所有的t >0,有
P ðn
i =1
γZ i ()ȡt (
)ɤ2exp
-
t 22ðn
i =1C 2i
(
)
引理3㊀在以β∗为中心的球形邻域R s 内,存在某些序列γn ң0,记
N =βT 1,βT 2()T ɪR p ,b ᶄ
k s ɪR :β2
=0ɪR p -s ,{max 1ɤk ɤK
β^
o 1-β∗1 22+b ^
k -b ∗k ()2()ɤγ2
n }
1+γn s n 3/2κn log 2n ()=o
n λn (),n 1/2λn ˑ
(log p n )-1/2ңɕ,κn γ2n =o λn (),max j
βj =o λn /μn (),则当(A1) (A3)成立时,有
P
(
sup β,b k ()ɪN
ðK
k =1
Q T ρᶄτk y -S β1-b k ()
ɕ
+
㊀㊀nμn  β1 ɕȡnλn
)ɤc 1
p
-c 2
n
(4)
其中,ρᶄτk u ()=τk -I u ɤ0{},c 1,c 2为大于零的常数㊂
证㊀明㊀对于固定的j ɪs n +1,s n +2, ,p n {},β=βT 1,βT 2,b k ()T
ɪN ,定义
γβ,j x i ,y i ()=㊀㊀
ðK
k =1
x ij ρᶄτk
y i -x T i β-b k ()-ρᶄτk
εi -b k ()[-㊀㊀E ρᶄτk y i -x T i β
-
b k ()-ρᶄτεi -b k ()[]]其中,x T i
=x i 1,x i 2, ,x ip ()为设计矩阵的第i 行㊂为证此引理,需对式(4)进行分解:
sup (β,b k )ɪN  1n ðK k =1Q T ρᶄ
τy -Sβ1-b k () ɕ
ɤ㊀sup β,b k ()ɪN  1n ðK k =1Q T E ρᶄτy -Sβ1-b k ()-ρᶄτε-b k ()[] ɕ+㊀ 1n ðK k =1Q T ρᶄ
τk ε-b k () ɕ+
㊀max
j >s sup
β,b k ()ɪN
1n ðn
i
γβ,j x i ,y i ()(5)
由式(4)及式(5)可知,引理3在以下各式至少存在1-c 1p -c
2n 可能性成立时得证㊂
I 1ʉsup β,b k ()ɪN  1n ðK k =1Q T
E ρᶄτk y -Sβ1-b k ()-ρᶄτk ε-b k ()[] ɕ
=8
01

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。