进化树构建的⽅法原理及检验
进化树的构建
(1)数据准备
⽬前,构建⽣命之树常⽤的数据包括形态数据和分⼦数据。
形态数据主要通过对形态性状编码来获取;
分⼦数据主要通过公共数据库GeBank下载或实验获取。选择合适的DNA⽚段对系统发育关系重建⾄关重要。如果所选基因的进化速率太慢,提供的系统发育信息不⾜, 系统发育关系可能得不到很好的解决;如果所选基因的进化速率太快,正确的系统发育信息常常会被⼤量的⾮同源相似信号淹没。
(2)序列拼接
(3)序列⽐对
(4)校正有争议的位点
保守区选择是系统发育分析过程中⼀个重要的步骤,对于信息位点⾜够多的建树序列,该步骤更是必不
可少。常⽤的软件为Gblock、MEME。
进化分析时可以选择保守位点,也可以选择基因全长序列,但是当序列差异⼤时,建议选择保守序列分析。
(5)模型选择
a) 决定替代模型
替代模型既影响⽐对,也影响建树,因此需要采⽤递归⽅法。
对于核酸数据⽽⾔,可以通过替代模型中的两个要素进⾏计算机评估,但是对于氨基酸和密码⼦数据⽽⾔,没有什么评估⽅案。
其中⼀个要素是碱基之间相互替代的模型,另外⼀个要素是序列中不同位点的所有替代的相对速率。
还没有⼀种简单的计算机程序可以对较复杂的变量(⽐如,位点特异性或者系统特异性替代模型)进⾏评估,同样,现有的建树软件也不可能理解这些复杂变量。
(1)碱基取代模型。
⼀般⽽⾔,⽣物化学性质相近的碱基之间的取代频率较⾼。在DNA中,四种转换(A→G,G→A,C→T,T→C)的频率⽐颠
换(A→C,A→T,C→G,G→T)以及它们的反向取代的频率要⾼。这些偏向会影响两个序列之间的预计分歧。
各残基之间的相对取代速率⼀般⽤矩阵形式给出:对碱基⽽⾔,⾏和列都是4,对于氨基酸,⾏和列都是20(如PAM矩阵);对于密码⼦,⾏和列都是61(除去终⽌密码⼦)。矩阵中对⾓元素代表不同序列拥有相同碱基的代价,⾮对⾓线元素对应于⼀个碱基变为另⼀个碱基的相对代价。固定的代价矩阵就是典型的静态权重矩阵,MP法中使⽤的就是这种,⼜如在ML法中,代价值是即时的速率矩阵得到,这个矩阵代表了各种取代可能会发⽣的概率的ML估计值。
(2)位点之间取代速率模型
除了前⾯取代模型的多元化外,序列中各个不同位点之间的取代速率差异也会对进化树的结果产⽣深远影响。
关于位点之间的速率差异(位点异质性),⼀个最明显的例⼦就是在三联体编码中,第三个编码位点⽐前两个更加容易发⽣变化。在分析编码序列时,许多发育分析都会将第三个位点排除;然⽽在某些情况下,速率差异模型会更加敏锐,如rRNA的保守序列。
对位点差异的取代速率予以估值的⽅法有⾮参数模型、不变式模型和Gamma模型。⾮参数模型在MP法中使⽤,对ML法被认为在计算上不可⾏。不变式模型对⼀定⽐例的位点进⾏估值,⽽这些位点不能⾃由变化,其余的位点假定为等概率变化。Gamma模型假定⼀给定序列变化的概率服从Gamma分布,据此指定位点的取代概率。Gamma分布的形状决定于其参数,描述了⼀个序列中各个位点的取代频率分布。⽬前DNA的替代模型有⼗种之多,再加上不变位点参数和形状分布参数。Gamma,模型更有⼏⼗种之多, ⼏种有代表性的替代模型是JC,
F81, K80, HKY和GTR。
(3)取代模型的选择
最好的取代模型并不⼀定总是拥有最多参数的模型。因为对每⼀个参数进⾏估值都会引⼊⼀个相关变量,从⽽使整体的变数增加,有时甚⾄会对模型起到抑制作⽤。在PAt中可以对DNA序列的取代模型进⾏规范⼀个较好的策略,使⽤似然法同时评估⼏个,可逆的取代速
率、gamma分布的形状参数和不变位点的⽐例。通过估算的取代参数,可以通过⽐较较多参数和较少参数分别评估得到的似然分值,决定⼀个简化的模型是否合理。⽬前较好的选择模型⽅法是似然⽐检验(LikelihoodRatio Test)
在建树之前,通常要对矩阵的最佳模型进⾏评估。
常⽤的软件有ModelTest 、MrModelTest、jModelTest等。ModelTest包含56种DNA替代模型,MrModelTest包含24种MrBayes中可⽤的模型, ⽽jModelTest包含88种模型。
熟悉各建树模型的优点与不⾜,根据数据特点有针对性地利⽤不同的模型,可以减少建树过程中出现的偏差。
⽬前,通常使⽤的模型选择软件,如ModelTest等,包含似然⽐检验(LRT),⾚池信息标准(AIC)和贝叶斯信息标准(BIC)等多种模型选择的统计标准。但⼀个⽐较令研究者困惑的问题是:根据什么统计标准,我们可以选出⽐较可靠的进化模型?
(6)选择建树⽅法
当前最常⽤的建树⽅法有距离法、最⼤简约法(Maximum Parsimony, MP)、(Maximum Likelihood, ML)和贝叶斯法(Bayesian Inference, BI) (Hall, 2008)。
MP法认为进化历程中发⽣碱基替代次数最少的系统发育树为最优树,常⽤的分析软件为PAUP*软件包。MP法由于不能对长枝的平⾏突变作出校正, 可能会得到错误的拓扑结构。
ML法基于碱基替代模型,认为似然值最⼤的系统发育树为最优树, 常⽤的分析软件有GARLI、PHYML、RAxML 等,⽬前应⽤较多的RAxML软件运算速度快、操作简单, 使⼤矩阵建树成为可能。
BI法采⽤与ML法⼀致的评分标准,但并不直接选取似然值最⼤的树,⽽是在马尔可夫链(Monte Carlo MarkoChain, MCMC)中取样,选取出现频率最⾼的系统发育树为最优树,常⽤的软件为MrBayes。BI法通过后验概率(posterior probability, PP)来评估拓扑结构的可靠性,⼀般PP > 95%的分⽀可信度较⾼。相对于其他⽅法,BI法所得的多数⼀致树被认为更能真实反映类间的系统关系。
(7)树的显⽰与美化
建树⽅法
构建进化树有两种基本的⽅法:独⽴元素法(discrete character methods)和距离法(distance methods)
基于距离的构建⽅法UPGMA(Unweighted pair group method with arithmetic mean,平均连接聚类法)、ME(Minimum Evolution,最⼩进化法)和NJ(Neighbor-Joining,邻接法);
基于特征的构建⽅法:最⼤简约法(MP法),最⼤似然法(ML法),进化简约法(EP法),相容性⽅法等。
第⼀种:UPGMA法(⾮加权配对算术平均法)
前提条件:在进化过程中,每⼀代发⽣趋异的次数相同,即碱基或氨基酸的替换速率是均等且恒等的。
UPGMA法计算原理和过程:
①以已求得的距离系数,所有⽐较的分类单元的成对距离构成⼀个t×t⽅阵,即建⽴⼀个距离矩阵M。
②对于⼀个给定的距离矩阵,寻求最⼩距离值Dpq。
③定义类p和q之间的分⽀深度Lpq=Dpq/2。
④若p和q是最后⼀个类,侧聚类过程完成,否侧合并p和q成⼀个新类r。
⑤定义并计算新类r到其他各类i(i≠p和q)的距离Dir=(Dpi+Dqi)/2。
⑥回到第⼀步,在矩阵中消除p和q,加⼊新类r,矩阵减少⼀阶,重复进⾏直⾄达到最后归。
bootstrap检验方法UPGMA法⽐较直观和简单,运算速度快,应⽤很⼴。它的缺点在于当分⼦进化速率较⼤时,在建树过程会引⼊系统误差。
第⼆种:邻接法NJ法(neighbor joining method)
是⼀种推论叠加树的⽅法。在概念上与UPGMA法相同,但是有四点区别
a. NJ法不要求距离符合超度量特性,但要求数据应⾮常接近或符合叠加性条件,即该⽅法要求对距离进⾏校正。
b. 邻接法在成聚过程中连接的是分类单元之间的节点(node),⽽不是分类单元本⾝。
c. NJ法中原始距离数据⽤于估算系统树上所有端结分类单元之间的距离矩阵,校正后的距离⽤于确定节点之间的连接顺序。
d. 在重建系统发育树时,NJ法取消了UPGMA法所做的假定,认为在此进化分⽀上,发⽣趋异的次数可以不同。
邻接法的运算过程如下:
① 对于给定距离矩阵中的每⼀端结i,⽤下式计算与其它分类单元之间的净趋异量(Ri) (t:矩阵中的分类单元数)
② 建⽴⼀个速率校正距离矩阵M,其元素由下式确定:
③ 定义⼀个新节点u,u的三个分⽀分别与节点i,j和树的其余部分相连,并且Dij为矩阵中距离最⼩者,u到节点i和j的分⽀长度定义为
④ 定义u到树的其它节点k(k≠i和j外的所有节点)的距离:
⑤ 从距离矩阵中删除i和j的距离,矩阵减少⼀阶。
⑥ 如果矩阵仍然多于两个的节点,重复第①-⑤步,否测除最外两个节点的分⽀长度来确定外,树上其余节点都确定,最后是剩余的2个的分⽀长度Sy=Dij
第三种:最⼤简约法(Maximum Parsimony Method)
最⼤简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释⼀个过程的最好理论是所需假设数⽬最少的那⼀个。
⽅法:
1. 计算所有可能的拓扑结构
2. 计算出所需替代数最⼩的那个拓扑结构,作为最优树。
第四种:最⼤似然法
其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进⾏累加,产
⽣特定位点的似然值。ML法对所有可能的系统发育树都计算似然函数,似然函数值最⼤的那棵树即为最可能的系统发育树。
利⽤最⼤似然法来推断⼀组序列的系统发⽣树,需⾸先确定序列进化的模型,如Jukes—Cantor模型、Kimura⼆参数模型及⼀般⼆参数模型等。在进化模型选择合理的情况下,ML法是与进化事实吻合最好的建树算法。其缺点是计算强度⾮常⼤,极为耗时。
⼩结
⽐较以上⼏种主要的构树⽅法,⼀般情况下,若有合适的分⼦进化模型可供选择,⽤最⼤似然法构树获得的结果较好;对于近缘物种序列,通常情况下使⽤最⼤简约法;⽽对于远缘物种序列,⼀般使⽤邻接法或最⼤似然法。对于相似度很低的序列,邻接法往往出现长枝吸引(branch attraction)现象,有时严重⼲扰进化树的构建。对于各种⽅法重建进化树的准确性,Hall (2005)认为贝叶斯法最好,其次是最⼤似然法,然后是最⼤简约法。其实如果序列的相似性较⾼,各种⽅法都会得到不错的结果,模型间的差别也不⼤。邻接法和最⼤似然法是需要选择模型的。蛋⽩质序列和DNA序列的模型选择是不同的。蛋⽩质序列的构树模型⼀般选择Poissoncorrection(泊松修正),⽽核酸序列的构树模型⼀般选择Kimura2-parameter (Kimura⼀2参数)。如果对各种模型的理解并不深⼊,最好不要使⽤其他复杂的模型。参数的设置推荐使⽤缺省的参数。
Bootstrap检验
不同的⽅法可能会得到不同的结论,我们需要⽤不同的⽅法以及不同的参数,加上对⽣物问题的理解来构建最好的进化树来帮助我们更好的理解⽣物学问题。其中⼀个衡量树的好坏的⽅法就是看bootstrap的值,值越⼤越好。
在重建进化树过程中,均需选择bootstrap进⾏树的检验。⼀般bootstrap的值>70,则认为重建的进化树较为可靠。如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。因此,⼀般推荐⽤两种以上不同的⽅法构建进化树,如果所得到的进化树类似,且bootstrap值总体较⾼,则得到的结果较为可靠。通常情况下,只要选择了合适的⽅法和模型,构出的树均是有意义的,研究者可根据⾃⼰研究的需要选择最佳的树进⾏分析。
BOOTSTRAP值即⾃展值,可⽤来检验所计算的分⽀可信度。⼏乎是构建系统⼀个必须的选项。⼀般Bootstrap的值>70%,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。
Bootstrap值是指根据所选的统计计算模型,设定初始值1000次,就是把序列的位点都重排,重排后的序列再⽤相同的办法构树,如此让模型计算并绘制1000株系统发育树,这是命令阶段产⽣的。如果原来树的分枝在重排后构建的树中也出现了,就给这个分枝打上1分,如果没出现就给0分,这样给进化
树打分后,每个分枝就都得出分值。系统发育树中每个节点上的数字则代表在命令阶段要求的1000次进化树分析中,有多少次。重排的序列有很多组合,值越⼩说明分枝的可信度越低,最好根据数据的情况选⽤不同的构树⽅法和模型。⽐如鉴定菌种时⼀般认为节点数字初始设置1000计算后显⽰⼤于500(有的时候显⽰是百分数,要注意)时,这样的系统发育分析才具有可信度,学术杂志才会接收或者认可。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论