基于NTriPath算法识别胃癌特异性信号通路
摘要:正则化网络NTriPath是一种将体细胞突变与生物学先验知识(例如,蛋白质与蛋白质相互作用网络,途径数据库)相结合的方法,以检测癌症中通过体细胞突变引起的癌症类型特异性改变的途径。NTriPath是非负基质三因子化的扩展,旨在从突变数据中识别改变的途径。它可以通过整合来自人类基因—基因相互作用网络的先验知识来处理体细胞突变基质的稀疏性和当前途径数据库注释的不完整性。
关键词:胃癌 预后 体细胞改变途径 基因网络
0 引言
鉴定与人类癌症临床相关的改变途径是癌症基因组学中的一个关键挑战。对这些改变的途径的精确识别和理解可以为患者分层,策略和新药开发提供新的见解。然而,由于突变谱的不同,准确识别由人类癌症的体细胞突变改变的途径仍然存在挑战。我们开发了一种创新方法,将体细胞突变数据与基因网络和途径相结合,以识别由癌症间体细胞突变改变的途径。
我们在这里调查的问题是:
1.将许多癌症类型的体细胞突变与基因-基因相互作用网络和通路数据库相结合的大规模综合体细胞突变分析是否可以可靠地识别由癌症间体细胞突变改变的癌症类型特异性或常见途径;
2.已鉴定的通路是否可以用作患者分层的预后生物标志物,并假设改变的通路有助于癌症的发展和进展,从而影响生存。
1 解决方法
1.1表示方法
我们构造一个二进制数据矩阵在突变数据中,其中n是患者的数量,m是基因的数量,并且矩阵的元素X, ,如果第i个患者在第j个基因上有突变,则为1,否则为0。我们构造一个二进制矩阵表示患者集,其中k1表示癌症类型的数量,并且表示第i位患者有第j种癌症类型。我们从人类基因-基因相互作用网络推导出邻接矩阵,并将其表示为A一个,如果第i个基因与网络中的第j个基因相互作用,则为 0。我们通过以下方式定义拉普拉斯矩阵图:L=D−A,其中对角矩阵中的每个对角线元素D由。我们构造一个二进制矩阵来表示通路信息的特定通路数据库,其中是通路的数量,并且,如果第i个基因作为通路数据库中的成员在通路中被注释,则为0。由于当前的路径数据库注释仍然不完整,因此我们定义了一个矩阵表示新更新的通路信息,包括NTriPath新添加的成员基因。我们定义一个矩阵表示癌症类型和通路关联,其中每个元素表示第i种癌症类型与第j条通路之间的关联。元素值越高,表明癌症类型和通路之间的关联越强。目标是获取新更新的路径信息V和癌症类型和通路关联S基于X和U。
1.2 非负矩阵三因子分解
NMTF旨在近似数据矩阵X通过三个矩阵的乘积,使得, 和由于我们研究的目的是通过跨癌症的体细胞突变发现改变的途径,因此我们可以定义目标函数来估计因子矩阵。 (1)
这里是矩阵的弗罗贝尼乌斯范数S和X, U, S和分别表示来自患者的体细胞突变数据,患者的癌症类型,癌症类型和通路关联以及癌症相关通路。这种方法在等式(1)中的局限性是体细胞突变基质的稀疏性X(>98%的条目为0)用于预测癌症类型和通路关联。因此,等式(1)中的弗罗贝尼乌斯范数可能不适合评估分解模型的优度,因为当数据矩阵时,它由0个条目上的误差主导。X稀疏。此外,由于当前通路数据库注释的不完整性,预测的癌症类型和通路关联S可能偏向于包含突变基因的途径,如目前在现有途径数据库中注释的途径。最近的一项研究表明,将生物先验知识(如基因-基因相互作用网络)作为NMTF的正则化术语,可以帮助更准确地识别现有途径中的新成员基因,以及关联矩阵。
1.3 网络正则化稀疏非负三矩阵
分解模型为了解决上述问题,我们开发了一种称为NTriPath(用于PATHway鉴定的网络正则化稀疏非负性TRI矩阵分解)的方法,通过结合人类基因 - 基因相互作用网络的先验知识来处理体细胞突变矩阵的稀疏性和当前途径数据库注释的不完整性。我们定义了一个加权损失函数来处理体细胞突变数据矩阵的稀疏性X,加权损失函数使我们能够专注于非零条目处的近似误差(即体细胞突变)。我们介绍图表拉普拉坎L和初始路径信息,分别来自人类基因-基因相互作用网络和当前通路数据库。然后,我们定义一个新的目标函数,如下所示: (2)
这里是一个权重矩阵,其中如果]否则为 0。操作员表示按元素的乘法。正则化术语和S如下所示:
(3)
哪里{λ}≥0表示用户特定的参数和个表示规范S等于所有条目的绝对值之和,正则化项(3)中的第三项被引入,作为最小化预测的新更新的通路信息之间的平方损失的监督方式V和初始路径信息.
2NTriPath算法
2.1算法原理
机器学习算法——NTriPath,整合了泛癌体细胞突变数据、基因-基因相互作用网络和通路数据库信息,以识别与癌症相关的预后分子通路。
2.2工作流程
使用四种类型的数据作为我们算法的输入:首先生成了患者x基因的二元矩阵X,其中“1”表示突变,“0”表示突变。第二:构建基因-基因交互网络A第三:我们整合了一个路径数据库V_0。第四:我们纳入了患者肿瘤U型的临床数据。NTriPath 生成两个矩阵作为输出:突变基因改变的途径V癌症基质S型改变的途径
2.3补充说明
大规模体细胞突变谱和基因-基因相互作用网络的使用使NTriPath能够识别含有已知癌症基因的癌症相关途径,这些癌症基因在癌症中以不同频率突变,并根据高网络连接性新添加的成员基因。最后,我们使用癌症类型基质S改变的途径来识别每种癌症类型特异性的改变途径。
2.4实验模拟
我们生成了合成突变数据集,并使用NTriPath进行了实验。具体来说,我们生成了包含五个患者亚组和10个途径的合成突变数据。每个亚组包括一到七个改变的途径。我们产生了基因 - 基因相互作用网络,并且途径中的成员基因在网络中彼此密集地连接在一起。我们向其中一个亚组引入了更高的突变率,以研究每个亚组的不同突变率是否会影响NTriPath发现癌症类型特异性改变途径的性能。
2.5实验结果
实验结果表明,NTriPath可以在改变的途径.使用大规模实验和不同突变率的其他实验也表明,NTriPath可以准确地识别亚组特异性改变的途径.
3.结论
NTriPath整合了来自通路数据库和分子网络的体细胞突变数据和先前的生物学知识,以识别显着改变的通路及其与特定癌症类型的关联。具体而言,NTriPath有效地利用仅存在于样本子集(或特定癌症类型)中的突变模式,从而揭示由癌症类型中复杂突变模式改变的途径。
此外,使用基因 - 基因相互作用网络和途径数据库提供了识别改变的途径,这些途径富含在高/中频下携带突变的基因,以及那些本身未突变但在网络和途径环境中的肿瘤发生中发挥关键作用的途径。因此,NTriPath特别适合于提供跨癌症类型体细胞突变改变的途径的全局分析。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论