2019年12月
第37卷第6期
西北工业大学学报
JournalofNorthwesternPolytechnicalUniversity
Dec.Vol.372019
No.6
https://doi.org/10.1051/jnwpu/20193761320
收稿日期:2018⁃10⁃28
基金项目:国家自然科学基金(11571011)资助
作者简介:张重阳(1994 ),女,西北大学硕士研究生,主要从事复杂网络及图模型研究㊂
基于图模型的Hub网络的结构学习
张重阳1,2,3,郭骁1,张海1
1.西北大学数学学院,陕西西安㊀710127;2.中国西安卫星测控中心,陕西西安㊀710043;3.宇航动力学国家重点实验室,陕西西安㊀710043;æèçöø
÷摘㊀要:聚焦于具有Hub的网络结构学习问题㊂在邻域选择框架下,基于Hub网络的特点在模型中加入L1和L2正则子,从而分别引入网络的稀疏性先验和Hub网络的组先验,使所得网络更容易产生Hub㊂对于所得模型,采用坐标下降法求解㊂模拟数据和实际数据实验表明所提模型在参数估计㊁模型选择方面的有效性和实用性,并说明了调控参数对模型的影响㊂关㊀键㊀词:图模型;网络;Hub;邻域选择
中图分类号:O212.4㊀㊀㊀文献标志码:A㊀㊀㊀文章编号:1000⁃2758(2019)06⁃1320⁃06㊀㊀近年来,图模型[1]成为人工智能㊁统计机器学习和生物信息等领域的研究热点㊂图模型是一类用图来表示随机变量联合概率分布的模型,它被广泛应用于建立各种相互作用的单元之间形成的网络结构,如基因调控网络㊁蛋白质网络㊁社交网络等㊂图模型的构成要素为节点和边,其中节点与随机变量对应,边与变量之间的条件依赖关系对应㊂具体的,
用二元组G=(V,E)表示一个图,其中V代表节点,E代表连接节点的边的集合㊂根据边是否有方向,图模型分为无向图和有向图㊂本文聚焦于从数据中估计网络的结构,利用n个服从Npμ,ð()的样
估计精度矩阵㊂为了构造可解释的图,众多学者提出将正则化思想应用到图模型的模型选择和参数估计问题中㊂Meinshausen等[2]提出了邻域选择方法,将图模型的正则化问题转化为求解p个L1正则化[3]问题,证明了对于稀疏的高维图模型,邻域选择的变量选择具有一致性㊂Yuan等[4]提出了一种罚似然函数方法,称为GraphicalLasso,使得精度矩阵转化为正定矩阵,可以同时进行模型选择和参数估计㊂Friedman等[5]提出了分块坐标下降法来求解GraphicalLasso㊂
模型加入L1罚项从贝叶斯角度来讲等价于假
设每条边所对应参数分布相同,且独立于其他所有
边,说明图中大多数节点边数大致相等㊂这在真实网络中是不现实的㊂Barabási等[6]研究发现大多数真实网络为无标度网络,节点度分布服从幂律分布,大部分节点度很小,存在度非常大的少数节点,这种度非常大的节点称为中心点(Hub)㊂因此,研究有中心点的网络结构学习有实际意义㊂
本文聚焦于具有Hub网络的结构学习问题㊂在邻域选择框架下,为了使所得网络具有Hub,本文采
用Elasticnet[7]罚项㊂Elasticnet罚项兼有Lasso回归和岭回归的优点,既能达到变量选择的目的,又具有很好的组效应,从而使所得网络更容易产生Hub㊂对于所得正则化模型,采用坐标下降法求解模型㊂最后,模拟数据实验和实际数据实验均说明所提方法有效㊁实用㊂
1㊀基于Elasticnet的邻域选择模型
1.1㊀邻域选择方法(neighborhoodselection)
高斯图模型[8]是基于高斯分布假设的无向图模型㊂假设X=(X1, ,Xp) Npμ,Σ(),其中μ为均值,Σ为协方差矩阵㊂Θ=(θij)1ɤi,jɤp=Σ-1表示协方差矩阵的逆矩阵,称为精度矩阵,则由马尔科夫性质,θij=0表示变量Xi与Xj条件独立,同时对应节
第6期张重阳,等:基于图模型的Hub网络的结构学习
点i和节点j之间无边相连㊂
X=(X1, ,Xp) Npμ,Σ(),则由多元正态分布的性质得给定除Xi以外的变量X-i,Xi的条件分布为
Xi|X-i N(X-iθi,σ2i)
式中,θi=Σ-i,-i()-1
Σ-i,iɪRp-1,σ2i
=Σi,i-Σ-i,iΣ-i,-i()
-1
Σ-i,i,那么自然地可将Xi表示为X-i
的线性函数,即
Xi=X-iθi+εi
(1)
式中,εi N(0,σ2i)㊂令Θ=Σ-1,则由分块矩阵求逆公式得
θi,i=σ-2i,θ-i,i=-σ-2iθi
因此,(1)式中回归系数向量θi中的非零元素与精度矩阵中对应列中的非零元素一致㊂假设有服从
N0,Σ()的n个样本,即可估计网络的结构㊂经典的估计方法如最大似然估计和最小二乘估计所得参数不是稀疏的,因而往往对应完全连接的图㊂这样的网络并不能有效研究变量之间的相互关系,且仅限于样本个数n大于维数p的情形㊂当p远大于n时,通过引入稀疏性先验来降低参数的自由度,使得参数可估计,而且使所得网络是稀疏的,更具有可解释性㊂
关于高维高斯图模型,Meishausen和
Bühlmann基于(1)式提出了邻域选择方法,即用L1正则化方法估计(1)式中参数,得到每个节点的邻
居节点,如下
^θ
i=argminθi
Xi-θiX-i 2+λ θi 1式中,为了方便,本文后面Xi表示的都是第i个变量的n个样本组成的向量,θi是变量X-i的系数㊂但是这样得到的精度矩阵不具有对称性,为此,在p个L1回归之后,需要将最终结果对称化㊂具体的,当θijʂ0且θjiʂ0时,认为节点i和节点j有边连接,这称为and⁃rule;当θijʂ0或θjiʂ0时,认为节点i和节点j有边连接,这称为or⁃rule
1.2㊀Hub网络的估计如前言所述,Hub网络的特点是有少数节点度很大,因此,Hub网络对应的精度矩阵具有潜在组结构,每一行或每一列为一组㊂而基于L1的邻域选择方法并不具有组效应㊂为了使所得网络具有Hub,在基于L1的邻域选择框架下,又引入Ridge罚项,
特别地,模型如下
^θi=argminθi
Xi-θiX-i 2+λ2 θi 22
+λ1 θi 1(2)
式中,θi是变量X-i的p-1维系数向量,其中每个分量是否为0决定其余节点与当前节点是否相连㊂λ1和λ2是调控参数㊂值得注意的是,(2)式中的正则项即为Elasticnet[7]正则项㊂Ridge罚项的引入使得每一个节点对应的边自然地成为一组,L1罚项的引入使得组内具有稀疏性㊂且并没有提前假设哪个节点是Hub,由(2)式可以自动估计出网络的结构,从而度较大的几个节点即为网络的Hub㊂对于(2)式的求解,本文采用坐标下降法[9]㊂坐标下降算法的基本思想是依照某种固定顺序,在每步迭代中,保持其余系数不变,只更新一个坐标系数,更新完所有坐标后
进入下一步迭代,直至收敛㊂对于(2)式,每步更新均有显式解,故算法是高效的㊂
2㊀实㊀验
本节分别用真实网络数据和生成的2种网络比较Elasticnet(and⁃rule)㊁Elasticnet(or⁃rule)㊁GraphicalLasso㊁NeighborhoodSelection(and⁃rule)和NeighborhoodSelection(or⁃rule)模型在参数估计㊁模型选择方面的效果,并说明调控参数对模型的影响㊂
2.1㊀模拟实验
为了评估模型的效果,考虑图模型的邻接矩阵
A的2种生成机制㊂第一种生成带Hub点的网络㊂先随机选取Hub节点,令邻接矩阵中相关的行和列的元素等于1的概率是0.8,即每个节点与Hub点
连接的概率是0.8㊂接下来令Aij=Aji=1(i<j)的概率是0.02,即2个节点有边的概率是0.02,Aij与Aji为邻接矩阵A的元素,Aij=Aji=1表示节点i和节点j
有边相连㊂Aij=Aji=0表示节点i和节点j无边相连㊂第二种生成无标度网络㊂一个节点的度
是k的概率服从幂律分布P(k) k-α,根据Barabási等[10]提出的机制:增长性和优先连接性,直接生成邻接矩阵㊂对于生成的每个邻接矩阵A,为了生成精度矩阵Θ,先构建一个对称矩阵C,当Aij=0时,Cij=0,即节点i和节点j不相连,当Aij=1时,Cij的取值来自均匀分布U[1,2],也可以取其他值㊂最后,令精度矩阵Θ=C+[0.1-λmin(C)]Ip,λmin(C)是C的最小特征值,Ip是pˑp的单位矩阵以确保Θ的特征值是正数㊂
按照第一种机制生成3组带Hub点的网络,样本个数n都是200,变量p的个数分别是100,250,
500,对应Hub点的个数分别是3,5,10㊂按照第二㊃
1231㊃
西㊀北㊀工㊀业㊀大㊀学㊀学㊀报第37卷
种机制生成3组无标度网络㊂样本个数n都是200,变量p的个数分别是100,250,500,对应Hub点的个
数分别是
3,5,10㊂
图1㊀带Hub点的网络3组模拟结果
正则化一个5 5随机矩阵㊀㊀比较生成网络和用模型估计得到网络的一些指标衡量模型的效果㊂第一类带Hub点的网络实验结果如图1所示㊂由图1的结果可以看出Elastic
net正则化模型对于带Hub点的网络的估计效果比其他3种模型都要好㊂第二类无标度网络实验结果如图2所示,由结果可以看出Elasticnet正则化模型对Hub点的估计效果比其他模型都好㊂
2.2㊀真实数据实验
本节将本文方法应用到肺癌的基因数据集,以检验模型的效果㊂这些原始数据可在NCBI(nationalcenterforbiotechnologyinformation)中下载㊂该数据集包含了7129个基因表达,这些基因是由肺癌患者和普通样本组成的96个样本,本文随机选取79个基因㊂研究表明Hub基因在肺癌基因调控网络中起着重要作用,特别是它们可能是肺癌进展的潜在生物标志物㊂因此,分析每个方法所发现的Hub是有意义的㊂让调控参数λ在一定范围内变动并拟合模型,记录在该范围内每个方法对应的每个基因度的总和㊂将提出的Elasticnet正则化模型应用到肺癌的基因数据㊂选择度排序为前15
2231㊃
第6期张重阳,等:基于图模型的Hub网络的结构学习
个基因作为每种方法选择的潜在的Hub基因,结果如表1所示㊂GLasso表示GraphicalLasso,NeiSel
(and)表示NeighborhoodSelection(and⁃rule),NeiSel(or)表示NeighborhoodSelection(or⁃rule),Elnet(and)表示Elasticnet(and⁃rule),Elnet(or)表示E⁃lasticnet(or⁃rule)㊂
图2㊀无标度网络的3组模拟结果
表1 肺癌基因的选取结果
GLassoNeiSel(and)NeiSel(or)Elnet(and)Elnet(or)
H2AFZ㊃SLC2A1㊃SLC2A1㊃H2AFZ㊃H2AFZ㊃
MTHFD2㊃GAPDH㊃DPYSL2㊃MTHFD2㊃MTHFD2㊃
DPYSL2㊃RPS23REEP5㊃DPYSL2㊃DPYSL2㊃
REEP5㊃LDHA㊃GAPDH㊃PSMB5㊃PSMB5㊃
SNRPB㊃REEP5㊃LDHA㊃REEP5㊃REEP5㊃
SLC2A1㊃FSCN1㊃H2AFZ㊃SNRPB㊃SNRPB㊃
MCM6㊃DPYSL2㊃COX5ASLC2A1㊃SLC2A1㊃
PSMB5COX5AMCM6㊃CTSHCTSH
PCNA㊃USP7㊃MTHFD2LDHA㊃LDHA㊃
EIF4A3SF3B2PSMB5TYMS㊃TYMS㊃
LDHA㊃ALDOA㊃ALDOA㊃GAPDH㊃GAPDH㊃
TYMS㊃PSMB5PCNA㊃PCNA㊃PCNA㊃
COX5AMCM6㊃PIK3R1㊃MCM6㊃MCM6㊃
SPTBN1㊃PIK3R1㊃CYB5AEIF4A3EIF4A3
POLR2GCYB5AEIF4A3RFTN1RFTN1
㊃3231㊃
西㊀北㊀工㊀业㊀大㊀学㊀学㊀报第37卷
㊀㊀通过查阅文献发现,其中大部分基因已被证实与肺癌相关,用黑实心圆圈表示这些基因㊂从表1可以看出Elnet(and)和Elnet(or)选出的15个Hub基因中有12个已经在相关文献中被证实,多于其余所有方法㊂从而说明在该数据集上,Elasticnet正则化模型表现更好㊂
图3㊀调控参数对模型的影响模拟结果
2.3㊀调控参数实验
Elasticnet的罚函数为岭回归罚函数和Lasso罚函数的凸线性组合,即α|β|1+(1
-α)|β|2,0ɤαɤ1㊂α=0时,Elasticnet即为岭回归;当α=1时,Elasticnet即为Lasso回归㊂α表示的是L1范数惩罚项所占比例,实验中通过改变α的值控制调控参数,模拟实验中α的取值为0.001㊂为了说明调控参数对模型的影响,改变模拟实验中α的值,生成n=200,p=100,Hub点的个数为3的带Hub点的网络,α分别取0.1,0.01和0.0005㊂结果如图3所示㊂可以看出α=0.1时,模型的效果差异并不很明显,α=0.01时,只有估计Hub的边数这一组的效果有明显差异,α=0.0005时,模型的效果有明显差异,Elasticnet正则化模型对Hub点的估计效果比其他模型都好㊂
㊃4231㊃

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。