收稿日期:2020 07 02;修回日期:2020 08 27 基金项目:国家自然科学基金—青年基金资助项目(61702229);江苏省六大人才高峰项目(2016 XYDXXJS 086)
作者简介:耿霞(1978 ),女,山西汾阳人,副教授,硕导,博士研究生,主要研究方向为人工智能、模式识别、生物信息学(gengxia@ujs.edu.cn);韩凯健(1996 ),男,江苏南通人,硕士研究生,主要研究方向为人工智能、生物信息学.
一种基于网络表示学习的miRNA 疾病关联预测方法
耿 霞,韩凯健
(江苏大学计算机科学与通信工程学院,江苏镇江212013)
摘 要:针对miRNA 疾病关联研究中信息使用不充分、过于依赖网络中节点的相似度信息以及预测准确度较
低的问题,提出一种基于网络表示学习的miRNA 疾病关联预测方法(networkrepresentationlearningmiRNA
diseaseassociation
,NRLMDA)。该方法通过引入长链非编码RNA(lncRNA)构造出miRNA lncRNA 疾病异构网络,丰富原有网络的生物学信息;采用网络表征学习node2vec算法在上述提出的异构网络中以一定的游走策略获得节
点的近邻序列,并通过s
kip gram模型进行深度学习,从而获得节点的低维特征向量;最后基于miRNA miRNA相似性的关联规则推断方法预测miRNA与疾病的关联。该方法能够挖掘出全局网络的拓扑结构特征,并且不需要负样本。NRLMDA在留一交叉验证和五折交叉验证以及进一步的案例研究上的实验结果优于经典方法。关键词:miRNA;node2vec算法;skip gram模型中图分类号:TP391 文献标志码:A 文章编号:1001 3695(2021)05 015 1365 06doi:10.19734/j.issn.1001 3695.2020.07.0176
miRNA diseaseassociationpredictionbasedon
networkrepresentationlearningmethod
GengXia,HanKaijian
(SchoolofComputerScience&CommunicationEnginee
ring,JiangsuUniversity,ZhenjiangJiangsu212013,China)
Abstract:Inviewoftheproblemofinadequateuseofinformation,excessivedependenceonsimilarityinformationofnodesin
thenetworkandlowpredictionaccuracyinmiRNA diseaseassociationstudies
,thispaperproposedamiRNA diseaseassocia tionpredictionmethodbasedonnetworkrepresentationlearning(
NRLMDA:networkrepresentationlearningmiRNA diseaseassociation).ThismethodconstructedamiRNA lncRNA diseaseheterogeneousnetworkbyintroducinglong chainnoncoding
RNA(lncRNA),whichenrichedthebiologicalinformationoftheoriginalnetwork.Itusedthenetworkrepresentationlearningnode2vecalgorithmintheheterogeneousnetworkproposedabovetoobtainthenode’sneighboringsequencewithacertain
walkingstrategy
,andperformeddeeplearningthroughtheskip grammodeltoobtainthelow dimensionalfeaturevectorsofthenode.Finally,theassociationruleinferencemethodbasedonmiRNA miRNAsimilaritypredictedtheassociationbetweenmiRNAanddisease.Thismethodcouldminethetopologicalstructurecharacteristicsoftheglobalnetworkwithoutnegative
samples.NRLMDA
’sexperimentalresultsonleave one outcross valida
tionandfive foldcross validationaswellascasestu diesaresuperiortotheclassicalmethods.Keywords:miRNA;node2vecalgorithm;skip grammodel
0 引言
miRNA 疾病关联预测通常需要计算miRNA功能相似性和疾病语义相似性,采用邻接矩阵的方法来表示miRNA 疾病网络。目前已经提出了许多方法用于相似性计算,Wang等
人[1]
通过度量与两个miRNA相关的两组疾病间的语义相似性,评估两个miRNA间的功能相似性。Xuan等人[2]在此基础
上对于在有向无环图中共享更多公共部分的两种疾病分配较高的语义贡献值。基于相似度计算预测miRNA 疾病关联的方法都是基于某个角度来定义同种节点的关系,构建网络模型所用数据单一,而且得到的相似度矩阵往往是一个稀疏矩阵,预测效果依赖节点相似性度量的准确性。基于机器学习的方法一般是通过提取miRNA 疾病关联对的特征信息,主要将miRNA与疾病的相似性得分值作为特征,送入分类器对模型进行训练,最后用训练好的模型预测潜在的miRNA 疾病关联。
例如,Fu等人[3]利用堆叠自动编码器从相似度矩阵中提取高
级特征,基于三层神经网络进行预测。C
hen等人[4]
基于过滤的方法从miRNA 疾病关联特征集中筛选特征,使用随机森林
进行预测。然而,基于机器学习的方法通常无法保留m
iRNA 疾病网络的拓扑特征,并且需要负样本。未知关联关系可能只是暂时没有被验证发现,因此将这些未知关联关系作为反例不够合理。
miRNA 疾病关联预测本质上是一个网络中节点链路的预测问题。网络表示学习通过相关算法将网络中的节点用一个低维的向量空间表示,能够保持原有网络的相关结构和特征,完成节点分类、链路预测等任务,已经广泛应用于生物信息学
领域。Zhang等人[5]
基于网络表示学习deepwalk算法挖掘网
络拓扑特征用于预测l
ncRNA 疾病关联。毛宇薇[6]
使用网络学习用于蛋白质交互识别。网络表示学习可以将网络信息转换成低维向量,学习到网络的拓扑特征。
本文结合网络表示学习的方法,提出了一种基于网络表示学习算法NRLMDA预测miRNA 疾病关联。首先,针对其他网络模型所用数据单一的问题,通过在原有miRNA 疾病异构
第38卷第5期2021年5月 计算机应用研究
ApplicationResearchofComputersVol 38No 5
May2021
网络中添加长链非编码RNA(lncRNA)节点,丰富网络的生物
学信息;然后采用n
ode2vec算法[7]
在异构网络中进行有偏置的随机游走获得节点的近邻序列,并采用深度学习模型skip正则化正交匹配追踪
gram获得节点的低维向量表示;
最后基于miRNA相似性的推断方法,计算疾病 miRNA连接分数,发现潜在的miRNA 疾病关联关系。该方法不仅保留了原有节点的相似度特征,而且极大程度地获得了网络的拓扑结构特征,提高了预测性能。
1 miRNA 疾病异构网络
miRNA 疾病异构网络包含miRNA相似性网络、疾病相似
性网络以及m
iRNA 疾病关联网络。miRNA相似性网络以及疾病相似性网络可以由相似度矩阵计算得到。1 1 疾病相似性
疾病语义信息来自MeSH[8]
中的疾病语义描述,该数据库
提供一个严格的疾病分类系统。本文依据Wa
ng等人[1]
的方法构建有向无环图(
DAG)来计算疾病之间的语义相似性。疾病t对由疾病A的DAG(A)的语义计算如式(1)所示。
DA
(t)=1ift=A
max{Δ DA
(t′)|t′∈childrenoft}ift≠{
A(1)
其中:参数Δ表示疾病t与子节点t′直接有向边的语义贡献因子。
按照式(2)定义疾病A的语义值。两种疾病的DAG图的
重叠部分越多,则两者相似性越高。然后依据式(
3)计算出疾病A与B的语义相似性。
DV(A)=∑t∈TA
DA
(t)(2)SD(A,B)=
∑t∈TA∩TB
(DA(t)+DB(t))DV(A)+DV(B)
(3)
1 2 miRNA相似性
Wang通过度量与两个miRNA相关的两组疾病间的语义
相似性,评估两个m
iRNA间的功能相似性。假设某一个疾病为dt,疾病集合用DT来标志,DT={dt1,dt2,dt3,…,dtk3},SD(dt,DT)代表疾病dt与疾病集合DT中疾病相似度的最大
值,如式(
4)所示。m(i)和m(j)的相似性可以由式(5)计算得到。
SD(dt,DT)=max1≤i≤k
{SD(dt,dti
)}(4)
S(m(i),m(j))=
∑1≤i≤mSD(dt1i,DT2)+∑1≤j≤n
SD(dt2j,DT1)m+n
(5)
其中:m、n分别表示DT2和DT1中疾病的数目。1 3 miRNA 疾病关联
本文从数据库HMDDV2.0下载了人类miRNA与疾病的
关联数据,该数据库包含54
30种经实验证实的miRNA与疾病的关联,包括495种miRNA和383种疾病。本文用矩阵A来表示miRNA 疾病关联网络的邻接矩阵。如果第i个miRNA与第j个疾病的关联性确定,则将元素A(i,j)分配为1,否则为0。详细数据如表1所示。
表1 数据集描述
Tab.1 Datasetdescription
数据类型数量miRNA495疾病383miRNA
疾病关联5430
1 4 网络结构改进
在miRNA 疾病关联预测问题中,异构网络中一般只有
miRNA和疾病数据,而不包含长链非编码RNA。长链非编码
RNA与miRNA同属于非编码RNA。近年来,研究人员发现长
链非编码R
NA的异常表达与癌症、神经系统疾病有关。与miRNA相比,长链非编码RNA序列更长、结构更复杂,并且某
些长链非编码R
NA与miRNA间可以相互作用,参与细胞分化和个体发育调控等过程。LncRNADisease[9]
数据库收集和整理了大约480个经过实验验证的lncRNA 疾病关联,其中含有166个疾病。通过对数据库中疾病和lncRNA进行过滤,只保
留属于人类的l
ncRNA 疾病关联,最后得到包含371个长链非编码R
NA 疾病关联,108种长链非编码RNA和140种疾病。lncRNA与miRNA之间的相互作用可以从StarBase[10]
数据库(http://starbase.sysu.edu.cn/mirLncRNA.php)获得,包含1127个lncRNA和277个miRNA之间的10198种相互作用。
对于长链非编码RNA相似性的计算,采用Chen等人[11]
在lncRNA 疾病关联预测中所使用的方法。
本文在传统的miRNA 疾病网络中整合了长链非编码RNA数据,通过引入长链非编码RNA与疾病关联、长链非编码RNA与miRNA相互作用以及长链非编码RNA相似性进一
步丰富原有的生物网络,构建出m
iRNA lncRNA 疾病异构网络,该网络一共由六部分构成,分别是疾病相似性网络、miRN
A相似性网络、已知的miRNA 疾病关联网络、长链非编码RNA与疾病关联、长链非编码RNA与miRNA相互作用以及长链非
编码R
NA相似性网络。异构网络如图1
所示。图1 miRNA lncRNA 疾病异构网络
Fig.1 HeterogeneousnetworkofmiRNA lncRNA disease
首先构建疾病相似性网络,该网络通过连接任意两个语义
相似性大于0的疾病构建。本文用一个无向带权图来抽象表示该网络的拓扑结构以及网络中疾病节点间的内在关系,GD=(VD,ED,WD)。图中每个节点vd∈VD都表示一个疾病实体,每条边ed∈ED连接两个语义相似性大于0的疾病实体。边上的权重wd
∈WD表示两个疾病节点的语义相似度。miRNA相似性网络以及lncRNA相似性网络的构建与疾病相似性网络类似。以miRNA相似性网络为例,该网络的拓扑结构以及网络中miRNA节点间
的内在关系通过无向带权图GM=(VM,EM,WM)表示。如果两个miRNA实体间存在连接边em∈EM,则表明两者存在相似性,边上的权重wm∈WM表示两
个miRNA实体的功能相似度。lncRNA与疾病关联网络、lncRNA与miRNA相互作用网络、
miRNA 疾病关联网络的构建是基于已知的关联,如果两者之间经生物实验验证证实存在关联或者存在相互作用关系,则两个节点之间有边相连。
2 基于网络表示学习的miRNA 疾病关联预测方法
本文创新性地提出了一种基于网络表示学习的miRNA 疾病关联预测方法NRLMDA,下面给出了基本框架及相应的算法描述。
2 1 miRNA 疾病关联预测方法基本框架
本方法分为以下几个部分:a)整合miRNA、疾病、lncRNA
·6631·计算机应用研究 第38卷
相关数据构建异构网络,包含疾病相似网络、miRNA相似网
络、
lncRNA相似性网络、miRNA 疾病关联网络、lncRNA 疾病关联网络和lncRNA miRNA相互作用网络;b)基于网络表示学
习node2vec算法在网络中提取节点的特征;c)根据节点的特征向量,重新计算miRNA miRNA的相似性得分;d)通过基于关联规则的推断方法,利用miRNA之间的相似性,发现潜在的miRNA 疾病关联。miRNA 疾病关联预测方法的基本框架如图2
所示。
图2 miRNA 疾病预测方法的基本框架
Fig.2 BasicframeworkofmiRNA diseaseprediction
1)异构网络的构建 具体的构建方法见1.4节,这里不再
赘述。
2)节点的向量化表示 本文选用网络表示学习中的node2vec算法对miRNA lncRNA 疾病异构网络中的节点进行矢量化表示,学习网络中节点的拓扑特征。不同于经典Deep
walk
算法随机选择下一个邻接点,node2vec算法通过引入p、q两个超参数来指导随机游走过程,可以平衡采样的深度和宽度。具体来说,对于miRNA、长链非编码RNA、疾病关联网络,采用BFS有助于探索miRNA相似性网络、疾病相似性和lncRNA相似性网络的同质性。采用DFS有助于发现miRNA 疾病关联网络、长链非编码RNA 疾病关联网络和长链非编码RNA miRNA相互作用网络的结构相似性。
通过使用n
ode2vec算法计算包括miRNA和疾病在内的所有节点的向量表示。n
ode2vec算法主要由两个部分组成:a)采样获取节点序列。有偏随机游走获取顶点的近邻序列,通过超参数p和q来控制随机游走的策略,对于每一个节点u,随机游走生成器为其生成长度为1的r个随机游走序列;b)节点序列通过深度学习skip gram模型得到每个节点的向量。设G=
(V,E)为给定网络。设f:V→Rd
是从节点到特征表示的映射函数,d是指定特征表示的维数,f是大小为|V|×d的参数矩阵。
对于每个源节点u∈V,Ns
(u) V定义为通过邻域采样策略s生成的节点u的网络邻域。将网络中的特征学习表示为最大似然优化问题,node2vec优化的目标是给定每个顶点条件下,令其近邻顶点出现的概率最大。总体的目标函数如式(6)所示。
maxf∑u∈V
logPr(Ns
(u)|f(u))(6)
其中:f(u)代表当前节点;Ns
(u)是邻居节点(以s的方法采样得到的),通过引入s
kip gram模型中的两个假设方便计算该结果。
a)假设条件独立,即采样每个邻居是相互独立的,将采样每个邻居的概率相乘就可以计算采样所有邻居的概率,如式(
7)所示。Pr(Ns
(u)|f(u))=∏ni∈Ns
(u)Pr(ni
|f(u))(7)
b)假设特征空间中的对称性。源节点和邻域节点在特征空间中具有彼此对称的效果。因此,将每个源—邻域节点对的
条件似然建模为softmax单元,该softmax单元由其特征的点积参数化,如式(
8)所示。Pr(Ns
(u)|f(u))=exp(f(ni)·f(u))∑v∈Ve
xp(f(v)·f(u))(8)
根据上述假设,公式中的目标函数可以简化为
maxf∑u∈V
[-logZu+∑
ni∈Ns
(u)f(ni
)·f(u)](9)
其中:Zu=∑v∈V
exp(f(v)·f(u)),即在给定u和对应的邻近点N(u)下,通过求这个目标函数最大值的情况下得到f(n)的函
数形式,从而得到每个节点的向量。由于归一化因子Zu=
∑v∈V
e
xp(f(v)·f(u))的计算代价高,本文采用负采样(negativesampling)技术优化。
3)重新计算miRNA之间的相似性通过网络表示学习node2vec算法将网络中的每个节点表示成低维向量,既利用了原始的相似度矩阵,又保留了网络内部拓扑结构特征。同时,为了更好地衡量miRNA节点之间的相似性,本文基于miRNA节点的表示向量来计算任意两个miRNA之间的相似度,得到新的miRNA相似度矩阵NMS。本文从方向和距离来度量两个miRNA节点表示向量之间的差异。一般采用余弦相似度来度量两个向量在空间中的相似度
大小,余弦值越接近1
,表明两个向量之间的夹角越接近0度,两者越相似。miRNA节点的余弦相似度矩阵用CMS来表示,计算方法为
CMS=
∑n
i=1mi·ni
∑n
i=1
m2
槡i
·∑ni=1
n2
槡
i
(10)
其中:n为节点向量的维度;mi和ni为m
iRNA节点m、n的表示向量第i维的数值。基于欧氏距离来计算两个miRNA节点向量之间的距离,定义MMS为miRNA节点向量基于欧氏距
离获得的相似度矩阵,如式(
11)所示。MMS(m,n)=
∑n
i=1
(mi-ni
)槡
2
(11)
由于通过欧氏距离计算得到的值是一个非负数。通常来
说,两个向量越相似,它们之间的距离就越小,越接近于0
。在传统的miRNA相似度计算过程中,两个相同miRNA的相似度
值为1,表明相似程度最高,而相似度矩阵中为0的值表明这两个miRNA之间不存在相似性。为了将MMS矩阵的取值范围映射到0~1,同时确保更相似的两个miRNA节点之间其相
似度值越接近于1
,本文根据式(12)对miRNA相似度矩阵MMS进行归一化处理。
MMSnormal
(m,n)=1-MMS(m,n)-Min(:,m)
Max(:,m)-Min(:,m)
(12)
其中:Min(:,m)代表矩阵MMS中第m行的最小值;Max(:,
m)为矩阵MMS中第m行的最大值。通过融合这两个矩阵得
到新的m
iRNA矩阵NMS,如式(13)所示。NMS=0.5×(CMS+MMS)
(13)
4)为了计算潜在的miRNA 疾病关联的分数,本文基于关
联规则推断的方法,即基于m
iRNA相似性的推断方法(MBSI[12]
)来预测未知的miRNA 疾病关联。
MBSI在预测疾病di与miRNAmj关系S(di,mj
)时,如果miRNAmj与另一个miRNA相似,而该miRNA与疾病di之间存在已知的关联关系,则疾病di与miRNAmj的相关性可以用置信度得分计算,如式(14)所示。
confidence(di,mj)=∑ml=1,l≠j
NMS(mj,ml)·ai,l∑m
l=1,l≠j
NMS(mj,ml)(14)
·7631·第5期耿 霞,等:一种基于网络表示学习的miRNA 疾病关联预测方法
其中:NMS(mj,ml)是miRNAmj和ml之间的相似性;
如果疾病di和miRNAml存在已知关联,则ai,l
的值为1,否则为0。为了将潜在miRNA 疾病关联对分数的取值映射到0~1,本文把置信度得分进行归一化处理,如式(15)所示。
confidencenormal(di,mj
)=confidence(di,mj)-Min(:mj
)Max(:mj)-Min(:mj
)(15)其中:Min(:,mj)是miRNAmj与已知关联疾病的最小置信度;
Max(:,mj)是miRNAmj与已知关联疾病的最大置信度。通过MBSI可以计算出潜在疾病 miRNA关联的置信度得分,给定一种疾病d,对与疾病d存在潜在关联的miRNA按照置信度
得
分降序排列,排名越靠前则表明该m
iRNA越有可能是疾病d的候选miRNA。2 2 算法描述
综上所述,本节通过引入lncRNA数据构建miRNA lncRNA 疾病异构网络,采用node2vec算法提取出网络的拓扑
结构特征,将网络中的节点表示成低维向量,重新计算m
iRNA相似度矩阵,最后基于miRNA相似性的关联规则推断方法预测潜在的miRNA 疾病关联,提出基于网络表示学习的miRNA 疾病关联预测算法NRLMDA。具体描述如算法1所示。
算法1
miRNA 疾病关联预测算法NRLMDA输入:miRNA 疾病关联数据MD,lncRNA 疾病关联数据LD,lncRNA miRNA相互作用数据LM,随机游走参数p、q,节点的邻域大小w,从每个节点出发产生的序列数目num,随机游走产生的序列长度l,每个节点拓扑信息的向量维度dim,疾病d。
输出:疾病d关联的miRNA候选排列。
初始化疾病相似性矩阵SD(di,dj),miRNA相似性矩阵SM(mi
,mj),lncRNA相似性矩阵LM(li,lj
)fori=1tondo forj=1tondo
通过式(1)~(3)计算疾病相似性SD(di,dj
) 通过式(4)(5)计算miRNA相似性SM(mi,mj
)和lncRNA相似性LM(li,lj
); endforendfor
根据已知的MD、LD、LM结合SD、SM和LM构造miRNA lncRNA 疾病图G;
根据式(6)~(9)得到疾病表示向量矩阵DM和miRNA表示向量矩阵MM;
根据式(10)~(13)重新计算miRNA相似度,得到新的miRNA相似度矩阵N
MS;根据式(14)(15)计算疾病d关联各miRNA的预测得分;对疾病d关联关系未知的miRNA根据置信度得分降序排列;
3 实验结果与分析
本章介绍模型评估方法及评价标准,对各个模型的实验结
果进行分析与比较,最后分析了三个具体疾病的案例。3 1 模型评估方法及评价标准
为了对NRLMDA模型的性能进行评估,采用留一交叉验证方法和五折交叉验证方法。本文以接收者操作特征曲线(receiveroperatorcharacteristiccurve,ROC曲线)来比较模型的性能。以本文对miRNA 疾病预测为例,对于每一个阈值k(0≤k≤1
00),真阳性率表示预测结果中排名前k%的关联对中已知关联的数目占所有用来测试的已知关联数目的比例,假阳性
表示的是预测结果中排名在前k
%的未知关联数目占所有用来测试的未知关联数目的比例。为了更加直观地对模型进行
比较,使用R
OC曲线下的面积(areaunderroccurve,AUC)作为衡量预测性能的标准。
3 2 实验分析与模型比较
node2vec通过引入两个超参数p和q来控制随机游走的
策略。参数p控制重复访问刚刚访问过的顶点概率;参数q控制着游走是向外还是向内,若q>1,倾向于访问和t接近的顶点(偏向BFS)。若q<1,倾向于访问远离t的顶点(偏向DFS),如表2所示,经过测试,最终本文选取的参数为p=0 25,q=1,NRLMDA模型性能最好。实验中节点的邻域大小w为5,从每个节点出发产生的序列数目n为50,随机游走产生的序列长度l为100,每个节点拓扑信息的向量维度dim为128。
表2 不同参数p和q下NRLMDA模型的性能Tab.2 PerformanceofNRLMDAmodelwithdifferentparameterspandq
pq
0.250.51240.250.83810.84230.84680.82690.79040.50.81310.81570.81760.81880.816410.79260.83050.83920.81800.806420.80630.80950.81600.79790
.79724
0.8354
0.8333
0.8147
0.8109
0.7955
采用留一交叉验证方法,每次保留一个已知的miRNA 疾
病关联样本用于测试,假设其为未知样本,然后利用N
RLMDA进行预测。得到预测结果后,将所有测试样本的得分逐一与未知样本的得分进行比较,按得分由高到低排序。在验证
NRLMDA方法的预测效果时,本文选取RWRMDA[13]
、
RLSMDA[14]、HGIMDA[15]、DRMDA[16]这四种方法进行比较。
其中RWRMDA和HGIMDA是基于生物网络的方法,RLSMDA和DRMDA是基于机器学习的方法。通过绘制ROC曲线,比较NRLMDA与其他四种方法的AUC值。
实施留一交叉验证后实验结果如图3所示。NRLMDA的AUC值为0.8468,RLSMDA、RWRMDA、HGIMDA和DRMDA的AUC值分别为0.6953、0.7891、0.8077和0.8339。本文
方法要优于其他主流且经典的m
iRNA 疾病关联预测模型。值得说明的是,
DRMDA基于自动编码器从miRNA相似性矩阵和疾病相似性矩阵中提取出miRNA 疾病关联对的特征向量,分类器的性能取决于特征的质量,并且需要负样本。本文采用基于网络学习的表示方法,能够保留网络的拓扑结构信息,并且不需要负样本,因而效果更好,说明NRLMDA的有效性。
同时,本文还对NRLMDA进行了五折交叉验证。将已知的miRNA 疾病关联样本平均分为5份,每次取其中一份用于测试。本文选取了10种具有较多已知miRNA关联信息的疾
病进行分析,选取四种经典算法进行比对,分别是MIDP[17]
、
WBSMDA[18]、RLSMDA[14]和HDMP[19]。表3给出了各个算法
的比较结果。
表3 不同算法在10种疾病下的AUC值比较
Tab.3 ComparisonofAUCvaluesofdifferentalgorithmsunder10diseases
疾病类型MIDPWBSMDARLSMDAHDMPNRLMDA乳腺肿瘤0.8060.7540.8020.7960.967结肠肿瘤0.7990.7050.7970.8120.944心力衰竭0.7810.7170.7630.7860.972肝细胞癌0.7490.7130.7420.7550.951肺肿瘤0.8920.8000.8700.9060.923卵巢肿瘤0.8930.8170.8840.8910.927胰腺肿瘤0.8820.8070.8590.8910.934黑素瘤0.8120.7590.8010.8230.950肾细胞癌0.8040.7660.7840.8100.937胃肿瘤0.7790.7430.7730.7800.951平均AUC值
0.820
0.758
0.808
0.825
0.946
·8631·计算机应用研究
第38卷
表3的实验结果表明NRLMDA算法在心力衰竭这一疾病上的AUC最高,达到了0.972;同时相比于其他算法,在上述10种疾病中取得了最高的AUC值。MIDP、WMSMDA、RLSMDA和HDMP算法的平均AUC值分别为0.820、0.758、0 808、0.825,NRLMDA的平均AUC值为0.946,性能比其他四种算法分别高出12.6%、18.8%、13.8%、12.1%。
采用五折交叉验证的方式,验证加入lncRNA节点后形成的三层网络与原始的miRNA 疾病双层网络的结果比较,结果如图4
所示。
结果表明,miRNA lncRNA 疾病网络在五折交叉验证下的AUC值为0.9045,而miRNA 疾病网络的AUC值为0.8587,加入lncRNA节点后的三层网络效果优于原始的双层网络,AUC指标提升了4.58%。同时,为了进一步比较两种网络结构的预测效果,本文选取了乳腺肿瘤和肝细胞癌这两种具有较多已知miRNA关联的疾病,采取五折交叉验证的方式进行比较。实验结果如图5、6
所示。
乳腺肿瘤在miRNA lncRNA 疾病网络和miRNA 疾病网络的AUC值分别为0.967和0.918,肝细胞癌在两种网络的AUC值分别为0.951和0.882,三层网络的预测结果要优于双层网络。对于选定的疾病,加入lncRNA节点后的改进网络的性能高于传统的miRNA 疾病双层网络,验证了miRNA lncRNA 疾病三层网络的有效性。
3 3 案例分析
为了进一步验证NRLMDA模型对未知miRNA 疾病关联关系的预测效果,对NRLMDA进行了案例分析,分别对乳腺肿瘤、结肠肿瘤和淋巴瘤这三种常见疾病进行验证。实验过程中所有已知的关联关系数据来源于HMDDv2.0,将这些数据用于训练,然后用训练好的模型对预测结果进行验证,用于验证的数据库包含dbDEMC和miR2Disease。对那些原有数据集中没有相关关系的miRNA进行排序,对前20位的miRNA进行验证。
乳腺肿瘤是世界上最常见的肿瘤。2016年,美国有超过350万名女性患有乳腺肿瘤。Shibahara和Tilghman等人发现与正常乳腺细胞相比,miRNA在乳腺肿瘤细胞中具有异常表达。例如,mir 125b、mir 145和mir 155在乳腺肿瘤细胞中明显失调。
在乳腺肿瘤评估过程中,选取了与乳腺肿瘤有潜在关联的前20个候选miRNA。表4的结果显示,除了hsa mir 642a、hsa mir 552、hsa mir 1224和hsa mir 569与乳腺肿瘤的关联关系未得到证实,其他16个miRNA都可以在dbDEMC和miR2Disease数据库中到对应的关联。除此之外,前10个候选miRNA都被准确地预测出来。
表4 NRLMDA对乳腺肿瘤预测的前20名结果
Tab.4 Top20predictionresultsforbreasttumor
结肠肿瘤是三种常见的癌症之一,占所有癌症病例的10%。表5显示了NRLMDA预测的与结肠肿瘤有关的前20个miRNA候选。其中,除了hsa mir 92a、hsa mir 200a和hsa mir 199a与结肠肿瘤的关联关系未得到证实,其他17个miRNA都可以在dbDEM
C和miR2Disease数据库中到对应的关联。
表5 NRLMDA对结肠肿瘤预测的前20名结果
Tab.5 Top20predictionresultsforcolontumor
淋巴瘤是起源于淋巴造血系统的恶性肿瘤。在我国,淋巴瘤的发病率位于第10位,占癌症死亡率的第8位。表6显示了前20个候选miRNA中的16个与淋巴瘤有关。
表6 对淋巴瘤预测的前20名结果
Tab.6 Top20predictionresultsforlymphoma
4 结束语
本文提出了基于网络表示学习的miRNA 疾病关联预测方法NRLMDA。通过引入长链非编码RNA 疾病关联、长链非编码RNA与miRNA相互作用和长链非编码RNA相似性来构建
·
9
6
3
1
·
第5期耿 霞,等:一种基于网络表示学习的miRNA 疾病关联预测方法
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论