第50卷第2期
2023年
北京化工大学学报(自然科学版)
Journal of Beijing University of Chemical Technology (Natural Science)
Vol.50,No.2
2023
引用格式:刘漫雨,黄彬,刘佳乐.超高维异方差数据下基于边际经验似然的分位数特征筛选[J].北京化工大学学报(自然科
学版),2023,50(2):112-118.
LIU ManYu,HUANG Bin,LIU JiaLe.Quantile screening for ultrahigh⁃dimensional heterogeneous data by marginal empiri⁃cal likelihood[J].Journal of Beijing University of Chemical Technology (Natural Science),2023,50(2):112-118.
超高维异方差数据下基于边际经验似然的
分位数特征筛选
刘漫雨 黄 彬* 刘佳乐
(北京化工大学数理学院,北京 100029)
摘 要:针对超高维异方差数据,基于边际经验似然提出一种分位数特征筛选方法,该方法不依赖于模型假定,且计算简单快捷,无须进行复杂的参数估计和迭代计算㊂同时,沿袭经验似然方法的优点,该方法对分布的假设较宽松㊂在一定的正则条件下,理论上证明了所提方法满足确定筛选性质㊂此外,为了筛选出对响应变量有影响的所有协变量,将上述方法进行推广,得到一种基于边际经验似然的分布函数特征筛选方法㊂最后,通过数值模拟和实例分析验证了所提出的两种方法具有良好的有限样本性质㊂
关键词:超高维数据;异方差;边际经验似然;分位数筛选;确定筛选性质中图分类号:O212  DOI :10.13543/j.bhxbzr.2023.02.014
收稿日期:2021-12-23
基金项目:国家自然科学基金(12171024)第一作者:女,1995年生,硕士生*通信联系人
E⁃mail:huangbin@mail.buct.edu
引 言
随着科技的发展,超高维数据越来越多地出现在诸如基因表达㊁信号处理㊁金融分析等领域中㊂在这类数据中,协变量的维数远大于样本量,且随着样本量的增加呈指数级增长,然而只有少量的协变量对响应变量有影响,呈现稀疏性的特点㊂现有的基于惩罚的变量选择方法都面临着计算成本㊁统计精度及算法稳定性等挑战
[1-3]
,不能很好地处理超高
维数据的降维问题㊂为了解决这一问题,近年来许
多学者提出了各种超高维数据的特征筛选方法㊂Fan 等[4]针对线性模型提出一种基于Pearson 相关系数的确定独立性筛选(SIS)方法,随后他们将SIS 方法进一步推广到广义线性模型和非参数可加模型
[5-6]
㊂在无模型假定的条件下,Zhu 等
[7]
基于响
应变量的条件分布和协变量的边际相关性提出了确定独立性排序筛选(SIRS)方法;Li 等[8]基于距离相
关系数提出了距离相关性确定独立性筛选(DC -SIS)方法;Li 等[9]基于Kendall 子相关系数提出了稳健秩变量筛选(RRCS)方法㊂
为了解决超高维数据中异方差的问题,结合分位数回归的稳健性和全面性,He 等[10]通过样条函数逼近边际分位数回归的方式,提出了分位数自适应确定独立筛选(QaSIS)方法㊂Wu 等[11]提出了条件分位数特征筛选(Q-SIS)方法和条件分布函数特征筛选(DF -SIS)方法,该方法计算简单快捷,无须进行非参数估计,且对协变量没有有限矩条件的限制㊂Chang 等[12]创造性地将经验似然方法用于超高维数据,通过对零点处的边际似然比进行排序,提出了线性模型下基于边际经验似然的特征筛选(EL -SIS)方法,该方法只涉及单变量优化问题,便于计算,对分布的假设较宽松㊂随后,EL -SIS 方法又被进一步推广到半参数和非参数模型中[13-14]㊂
然而上述基于边际经验似然的筛选方法都是在
一定的模型框架下,为了避免特定的模型假设,同时
为了有效解决超高维数据中异方差的问题,本文将EL -SIS 与条件分位数筛选方法相结合,提出了基于
边际经验似然的分位数特征筛选(EL -QSIS)和分布函数特征筛选(EL -DFSIS)方法㊂沿袭经验似然方法的特征,所提方法具有计算简单快捷㊁无须参数
估计㊁对分布的假设较宽松㊁不依赖于模型假定等优点㊂通过理论证明㊁数值模拟和实例分析进一步验证了所提方法满足确定筛选性质且具有良好的有限样本性质㊂
1 变量筛选方法
1.1 基于边际经验似然的分位数特征筛选
令Y和X=(X1,X2, ,X p n)T分别表示响应变量和p n维协变量,其中维数p n随着n的增加呈指数级增长㊂不失一般性,假定E(X k)=0,E(X2k)= 1,k=1,2, ,p n㊂假设Y与X之间满足稀疏性原则,即只有少部分协变量对响应变量有影响㊂对某给定的τ∈(0,1),记条件τ分位数Qτ(Y|X)= inf{y:P(Y≤y|X)≥τ},为了筛选出其中的重要变量,定义活跃指标集为Mτ={k:Qτ(Y|X)依赖于X k,k=1,2, ,p n}㊂记s n=|Mτ|,其中|Mτ|表示Mτ中元素的个数,根据稀疏性原则,s n<n㊂
由文献[11],若Qτ(Y|X k)=Qτ(Y),k=1,2, ,p n,则对任意t∈R,d k(t)=0,其中d k(t)= E{[τ-I(Y<Qτ(Y))]I(X k<t)}㊂因此可以用d k(t)衡量X k和Y之间的边际相关性㊂记g k= E{d2k(X k)},则当Qτ(Y|X k)=Qτ(Y)时,g
k=0,反之g k>0㊂由此可见,g k越大,则越说明X k是影响Y的条件τ分位数的重要变量㊂因此,可以通过度量边际效用g k是否等于0来进行特征筛选㊂
设有独立同分布的样本{(X i,Y i)}n i=1,且样本协变量已经标准化,即
1
n∑n i=1X ik=0,1n∑n i=1X2ik=1,k=1,2, ,p n 令g jk=d2k(X jk),j=1,2, ,n,定义如下边际经验似然㊂
EL k{=sup∏n j=1ωj:ωj≥0,∑n j=1ωj=1,∑n j=1ωj g jk= }0(1)利用拉格朗日乘子法求解式(1),得到边际经验似然比为
l k=-2ln{EL k}-2n ln n=2∑n j=1ln(1+λg jk)其中,拉格朗日乘子λ满足∑n j=1g jk1+λg jk=0㊂根据Chang等[12]的理论分析,当k∉Mτ时,l k值不会太大,而当k∈Mτ时,l k将以很大的概率发散,故可将l k作为度量指标进行排序从而筛选出重要变量㊂为了给出l k的估计,定义g jk(j=1,2, ,n)的经验估计为
^g
jk{=1n∑n i=1[τ-I(Y i<^Qτ(Y))]I(X ik< X jk})2
式中,
^Q
τ(Y)是基于Y1,Y2, ,Y n的样本τ分位数㊂相应地,可估计l k为
^l
k=2
∑n j=1ln(1+^λ^g jk)
式中,
^λ满足∑n j=1^gτjk1+^λ^gτjk=0㊂从而Mτ可估计为
^M
τ={k:^l k≥γn,k=1,2, ,p n}
式中,γn是预先设定的阈值㊂在实际应用中,常将^l
k,k=1,2, ,p n按降序排列,此时可得Mτ的估计为
^M
τ={k:^l k为前d n个最大的,k=1,2, ,p n}其中指定的模型大小d n可仿照文献[4]取为[n/ln n],这里[a]表示取不大于a的整数㊂
1.2 理论性质
为了证明EL-QSIS方法满足确定筛选性质,假设下列正则化条件成立㊂
1)存在常数c>0,使得
min k∈Mτg k≥cn-κ,对某κ∈[0,1/2)㊂
2)在Qτ(Y)附近,F(y)二阶可微,对于f(y),存在正数c1㊁c2,使得0<c1<f(y)<c2<∞一致成立,且f′(y)一致有界,其中F(y)和f(y)分别为Y的分布函数和密度函数㊂
3)在给定X Mτ下,X M cτ与I(Y<Qτ(Y))条件独
立,且X M
τ
与X M c
τ
相互独立,其中X M
τ={X j:j∈Mτ}, X
M cτ={X j:j∉Mτ}㊂
文献[11]有相同的条件1)~3)㊂条件1)要求重要变量对应的g k中的最小值不能太小,这也意味着重要的协变量的信号不能太弱,这个条件被广泛应用于超高维数据的特征筛选中㊂条件2)是分位数回归的常见条件㊂利用条件3)可以把重要变量和非重要变量区分开,从而保证筛选排序的一致性㊂注意在文献[12]的条件A.2中要求协变量与响应变量的尾部满足指数衰减速率,而本文对协变量没有任何限制条件,因此,本文所提出的筛选方法对重尾分布更加稳健㊂
引理1 在条件1)㊁2)下,有
㊃311㊃
第2期          刘漫雨等:超高维异方差数据下基于边际经验似然的分位数特征筛选
max j
|^g jk -g jk |=O p (n -κ)由|^Q τ(Y )-Q τ
(Y )|=O (n -1/2(ln n )1/2)a.s.和文献[11]中定理1的证明步骤,容易得到引理1的结论㊂
定理1 在条件1)~3)下,存在常数C 1>0,对
任意α∈(0,1/2-κ),有
max k ∈M τ
P {^l k <c 2n 2α}≤exp {-C 1
n 1-2κ}证明:对∀k ∈M τ,由文献[15]得^l k =2max ^
λ∈Λn ∑n
j =1
ln {1+^λ^g jk }其中Λn ={^λ
对任j =1,2, ,n ,1+^λ^g jk ≥n -1}㊂注意0≤g jk ≤1,且仿照文献[12]中定理1㊁命题2
的证明步骤,对某ε>0,取^λ
=(n εmax j ^g jk
)-1,则对某t >0,得
P {^l k
<2t }≤{P ∑
n j =1^g
jk n εmax j ^g
jk <t +n 1-2}ε=
{P
∑n
j =1
^
g jk
<(tn ε
+n
1-ε
)max j ^g
}jk ≤{
P 1
nσk
∑n
j =1
(g jk -g k )<1σk [(tn ε-1/2+n 1/2-ε)max j ^g
jk -ng k +n max j |^g jk -g jk |}]
≤{
P 1
nσk
∑n
j =1
(g jk -g k )<
1
σk
[(tn ε-1/2+n 1/2-ε)max j g jk -n g k +(tn ε-1/2+n 1/2+n 1/2-ε)㊃max j |^g jk -g jk |}]≤{
P 1
nσk
∑n
j =1
(g jk -g k )<1
σk
[(tn ε-1/2+n 1/2-ε)-ng k +(tn ε-1/2+n 1/2+n 1/2-ε)㊃max j |^g
jk -g jk |}
]式中,g k =E (g jk ),σ2k =Var(g jk )㊂对于L →∞,取ε
使得n ε=L /g k ,且令2t =ng 2k /L 2,则有
tn εng k =1
2L
n 1-εng k =1
L (tn
ε-1/2
+n
1/2-ε
)-ng k
σk
(=
32L )
-1ng k
σk
由引理1,有
(tn ε-1/2+n 1/2+n 1/2-ε)max j |^g
jk -g jk |σk
=O p (n 1/2㊃
max j |^g
jk -g jk |)=O p (n 1/2-κ)这一项可以被忽略或被O p (n 1/2g k )代替,这是
因为在条件1)下,对∀k ∈M τ,n 1/2g k ≥cn 1/2-κ,从而
{
P ^l k <
c 2n 1-2κL }
2
≤{
P
^l k <ng 2k L
}
2≤
{
P
1nσk
∑n
j =1
(g jk -g k )<(3/(2L )-1)ng k
σ}
k
进一步由文献[12]的引理1㊁命题2可知,存在常数C 1>0,使得
{P ^l k <c 2n 1-2κL
}
2
≤exp {-C 1n 1-2κ}最后,对某α∈(0,1/2-κ),取L =n 1/2-κ-α,则定理1成立㊂
定理2(确定筛选性质) 在条件1)~3)下,存
在常数C 1>0,对任α∈(0,1/2-κ)和γn =c 2n 2α,有
P {M τ
⊂^M
τ
}≥1-s n
exp {-C 1
n 1-2κ}证明:由定理1及P {M τ⊄^M τ
}=P {存在k ∈M τ,使得^l k <c 2n 2α}≤s n max k ∈M τ
P {^l k <c 2n 2α},定理2显然成立㊂
从定理2可知,协变量维数p n 随样本量n 的增加呈指数级增长,且满足
ln p n =O (n 1-2κ)
则当n →∞时,有P {M τ⊂^M τ
}→1,说明估计的重要变量指标集^M τ
以概率1包含真实的重要变量指标集M τ,即所提出的EL -QSIS 方法满足确定筛选性质㊂
1.3 基于边际经验似然的分布函数特征筛选
若关注的活跃指标集为
M ={k :F (y |X )依赖于X k ,k =1,2, ,p n }其中F (y |X )=P (Y ≤y |X ),则可将所提出的EL -QSIS 方法进行推广,得到一种基于边际经验似然的分布函数特征筛选(EL -DFSIS)方法,且该方法不依赖于模型假定㊂这里令
h k (y ,t )=E {[F (y )-I (Y ≤y )]I (X k <t )}
则可通过度量E {h 2k (Y ,X k )}是否等于0来进行特
征筛选㊂类似地,令~g
jk {
=1
n
∑n
i =1
[^F (Y j )-I (Y i
≤Y j )]I (X ik <X jk })
2
,j =1,2, ,n ,^F (y )=
1
n
㊃∑n l =1
I (Y l ≤y ),边际经验似然比~l k =2
∑n
j =1
ln {1+
~g jk },其中~λ满足∑n
j =1
~g
jk 1+~λ
~g jk =0㊂基于~l k ,M 可估
计为
^M ={k :~l k
≥~γn ,k =1,2, ,p n }㊃
411㊃北京化工大学学报(自然科学版)               2023年
其中~γ
n 是预先设定的阈值㊂类似地,在一定的正则条件下,仿照文献[12]
和上述定理1㊁2的证明步骤,可以证明EL -DFSIS 方法也满足确定筛选性质㊂
2 数值模拟与实例分析
本节通过数值模拟和实例分析来验证所提出的
EL -QSIS㊁EL -DFSIS 筛选方法的有限样本性质,并且分别将它们与QaSIS [10]㊁Q -SIS [11]和SIRS [7]㊁DF -SIS [11]㊁EL -SIS [12]等方法进行比较㊂
在数值模拟中考虑样本量n 为150或300,协
变量维数p n =3000,筛选出的变量个数d n =n /ln n ,对每种情形重复300次试验㊂评价指标包括:p 0
真实的模型大小;P ALL  在给定模型尺寸d n 下,
300次重复试验中所有重要预测变量被选中的比例;Median  300次重复试验中包含所有重要预测变量的最小模型尺寸的中位数;IQR  300次重复试
验中包含所有重要预测变量的最小模型尺寸的四分位差㊂
例1 考虑异方差线性模型
Y =X 1+0.8X 2+0.6X 3+0.4X 4+0.2X 5+σ(X )ε
式中,X =(X 1,X 2, ,X p n )T ~N p n (0,Σ),Σ=(0.8|i -j |)(i ,j =1,2, ,p n ),σ(X )=X 20+X 21+X 22,且误差ε~N (0,1)或t (4)㊂考虑分位点τ=0.5或τ=0.75,此时真实的重要预测变量的个数分
别为5和8㊂模拟结果见表1㊂
表1 例1的模拟结果
Table 1 Simulation results for Example 1
误差
分位数
方法p 0n =150n =300P ALL
Median IQR P ALL Median IQR SIRS
80.47032420.957
2644DF -SIS 80.9839
2019
24EL -SIS
80.9601041108EL -DFSIS 80.9671161117N (0,1)0.5QaSIS 51511500.5Q-SIS 51501500.5
EL -QSIS 51
50
1500.75QaSIS 80.88111311060.75Q-SIS 80.88710101970.75EL -QSIS 80.903122192
SIRS
80.613263812741DF -SIS 81
11171926EL -SIS
80.9801071109EL -DFSIS 80.9801241115t (4)0.5QaSIS 51521500.5Q-SIS 51511500.5
EL -QSIS 515115
00.75QaSIS 80.8601216110130.75Q-SIS
80.883131019100.75EL -QSIS
8正则化定义
0.8931031
93  例2 考虑异方差非线性模型
Y =X 21sin X 2+X 33+(cos X 4)3+X 5+σ(X )ε
其他设置条件与异方差线性模型相同,模拟结
果见表2㊂特别地,在给定模型尺寸d n 下,表3给出了协变量X 20㊁X 21㊁X 22在300次重复试验中被选中的比例(除去τ=0.5的情形)P 20㊁P 21㊁P 22㊂
511㊃第2期          刘漫雨等:超高维异方差数据下基于边际经验似然的分位数特征筛选
表2 例2的模拟结果
Table 2 Simulation results for Example 2
误差分位数方法p 0n =150n =300
P ALL
Median IQR P ALL
Median IQR SIRS
80.37338440.9572740DF -SIS 80.85312630.9879
41EL -SIS
80.86724260.9971920EL -DFSIS 80.897211911715N (0,1)
0.5QaSIS 51621510.5Q-SIS 51501500.5
EL -QSIS 51
5
1
150
0.75QaSIS 80.41023240.91321200.75Q-SIS 80.76316170.99012130.75EL -QSIS 80.8231931172SIRS
80.31339520.9802451DF -SIS 80.613167211239EL -SIS
80.703252411618EL -DFSIS 80.737241712014t (4)
0.5QaSIS 50.957721510.5Q-SIS 51511500.5
EL -QSIS 51511500.75QaSIS 80.30838440.81327320.75Q-SIS
80.56022290.87012170.75EL -QSIS
8
0.823
2350.993154表3 例2中X 20,X 21,X 22被选中的比例
Table 3 Selection proportions of X 20,X 21,X 22for Example 2
误差
分位数
方法n =150
n =300P 20
P 21
P 22
P 20
P 21
P 22
SIRS
0.5400.6270.5130.9770.9900.977DF -SIS
0.9930.9600.9030.9970.9970.990EL -SIS
0.9630.9330.9770.99711N (0,1)
EL -DFSIS 0.9100.9000.9771110.75QaSIS 0.8400.5400.41310.9270.9570.75Q-SIS 0.7970.8730.7930.9970.9930.9900.75
EL -QSIS 0.8400.8770.793111SIRS 0.6030.7270.4970.993
10.983DF -SIS
0.7870.8300.787111EL -SIS
0.7770.8370.887111t (4)
EL -DFSIS 10.9030.9971110.75QaSIS
0.7500.6300.5600.9130.9070.8830.75Q-SIS 0.7770.7670.6630.9270.9470.9300.75
EL -QSIS
0.9070.9300.99010.9970.993㊃
611㊃北京化工大学学报(自然科学版)               2023年

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。