系统进化树-原理介绍及软件使⽤
--系统进化树-原理介绍及软件使⽤--
什么叫系统进化?
系统发⽣分析⼀般是建⽴在分⼦钟基础上的。分⼦钟:分⼦序列进化是按照⼀恒定速率进⾏的,所以积累突变的数量和进化时间成⼀定⽐例,基于这个假说,发⽣树上的树枝长度可以⽤来估算基因分离的时间。
什么叫系统进化树(Phyligenetic tree)?
系统进化树是对多序列⽐对(MSA)结果以树形图形式的⼀个呈现,对于研究进化关系有很⼤的帮助,通过进化树分析我们也可以关键功能基因和蛋⽩得出⼀些假说。
如上图所⽰,进化树可以有不同的表⽰形式
上图很好的反映了进化树构建的依据:1,随着物种进化的演绎,进化⽔平越相近的物种他们的序列越接近;2如果是由同⼀个物种演化过来的,分化出来的不同物种会保留共同祖先的印记,这是区别于其他的祖先的。
系统进化树分有根(rooted)和⽆根(unrooted)树。有根树(归于⼀个节点)反映了树上物种或基因的时间顺序,⽽⽆根树只反映分类单元之间的距离⽽不涉及谁是谁的祖先问题。
进化树的构建
进化树的构建⼤体要分为3步:序列的⽐对,建树,然后验证。
1,序列的⽐对:做ALIGNMENT的软件很多,最经常使⽤的有CLUSTALX和CLUSTALW
2,构建进化树有两种基本的⽅法:独⽴元素法(discrete character methods)和距离法(distance methods),基于距离的构建⽅法UPGMA(Unweighted pair group method with arithmetic mean,平均连接聚类法)、ME(Minimum Evolution,最⼩进化法)和NJ(Neighbor-Joining,邻接法);基于特征的构建⽅法:最⼤简约法(MP法),最⼤似然法(ML法),进化简约法(EP法),相容性⽅法等。
不同的⽅法可能会得到不同的结论,我们需要⽤不同的⽅法以及不同的参数,加上对⽣物问题的理解来构建最好的进化树来帮助我们更好的理解⽣物学问题。其中⼀个衡量树的好坏的⽅法就是看bootstrap的值,值越⼤越好,
距离法:
距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离
1,所有的距离法⾸先通过俩俩⽐对产⽣⼀个“距离矩阵”,然后计算出每对序列的基于距离,简单的理解基因距离就是两个序列没有匹配上的个数(当然,实际计算⽐这个要⿇烦的多);2,然后这个俩俩⽐对距离矩阵⽤来判断距离最近的两个序列,这两个序列来形成进化树的两个树枝,这些俩俩⽐对的
距离矩阵然后重新开始序列最近的两个序列,但这次最相近的两个序列通过⼀个节点连接到树上,以次往下推,直到结束。3,再根据距离画好这个树。
这个⽅法的优点就在于快速,缺点为:1它的准确与否是建⽴在这样的假说上的:additive distances (always)和molecular clock (sometimes);2 Information loss occurs due to data transformation ;3 Uninterpretable branch lengths;4 Single “best tree” found.
bootstrap检验方法独⽴元素法:
所谓独⽴元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:⼀个序列上可能包含很多的酶切位点,⽽每个酶切位点的存在与否是由⼏个碱基的状态决定的,也就是说⼀个序列碱基的状态决定着它的酶切位点状态,当多个序列进⾏进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。根据transition probabilities, base frequencies, rate heterogeneity等等求出最⼤的概率图
举个硬币的例⼦来说明问题吧
Likelihood (L) = Probability (dataobserved | model)
Data : HHTHTH
Model 1 : fair coin Prob(H) = 0.5, Prob(T) = 0.5
Model 2 : 2-head coin Prob(H) = 1.0, Prob(T) = 0.0
Model 3 : 2-tail coin Prob(H) = 0.0, Prob(T) = 1.0
L (Data|Model1)
= Prob(H|Model1) * Prob(H|Model1) * Prob(T|Model1) * Prob(H|Model1) *
Prob(T|Model1) * Prob(H|Model1)
= 0.5 * 0.5 * 0.5 * 0.5 * 0.5 * 0.5 = 0.0156
L (Data|Model2) = 1.0 * 1.0 * 0.0 * 1.0 * 0.0 * 1.0 = 0.0
L (Data|Model3) = 0.0 * 0.0 * 1.0 * 0.0 * 1.0 * 0.0 = 0.0
同理对于maximum likelihood
Find the model that maximizes the likelihood of the observed data
Data : GGACGCCTGACGCCGCTCGG
Model 1: equal base composition - 0.25, 0.25, 0.25, 0.25 – A, C, G, T, respectively
Model 2: G+C bias - 0.1, 0.4, 0.4, 0.1 – A, C, G, T, respectively
Model 3: A+T bias - 0.4, 0.1, 0.1, 0.4 – A, C, G, T, respectively
L (Data|Model1) = Prob(G|Model1)*Prob(G|Model1)*Prob(A|Model1)*...* Prob(G|Model1) = 0.2520 = 9.1x10-13
L (Data|Model2) = 0.416 * 0.14 = 4.3x10-11 ← maximum likelihood
L (Data|Model3) = 0.116 * 0.44 = 2.6x10-18
对于核酸替代进化模型需要考虑两个因素:1每个碱基出现的概率;2根据进化关系确定的每个碱基转移的概率。有很多进化模型,合理选择。
优点:基于精细的进化模型;可以对特殊的树形拓扑图的相似性统计评估;经常返回很多相似的图(Often returns many equally likely trees),⽐其他的⽅法呈现的结果要好。  缺点:计算花时间,Often returns many equally likely trees.
3,Bootstrap验证
这是⽬前公认的⽐较好的检验⽅法,采⽤随机抽样的⽅法组成新的序列,然后序列⽐对,出现同样的⽐对结果的概率,如下图所⽰,我们对⼀定长度序列有放回的抽取,抽取次数跟序列长度⼀样,pr1为第⼀次随机抽样的模式,第⼀个碱基被抽中了1次,第⼆个碱基被抽中了3次,第三个碱基被抽中了1次……然后以这种模式抽提所有的⽐对的序列形式新的序列,然后在对新的序列进⾏构图,同理,随机产⽣新的模式,重复之前的步骤,这样的随机产⽣的模式⼀共1000组,最后求出模中节点出现的概率即为该序列⽐对的bootstrap概率。
这种⽅法需要两种假设:数据量⾜够⼤;The data are identically and independently distributed。
Bootstrap values
> 90% strongly supported
70 > 90% well supported
50 > 70% weakly supported
< 50% not supported
上⾯两个图bootstrap原理⼀样,但是在建⽴取点模式上有⼀点点不⼀样。
对进化树的分析
假设上⾯的⽐对结果都有⼀个不错的bootstrap验证,基因X’,X’’,X’’’,X’’’’直系同源,Y,Y’跟这⼏个旁系同源(直系来源于基因的分化,旁系来源于基因的复制),图1是我们的参考进化图,反应的跟我们预期的⼀样,图2中跟我们预期的图1⼀⽐,我们怀疑可能是发⽣了基因⽔平转移(HGT);图3,我们发现了⼀个旁系同源基因,在其他的物种中没有发现旁系同源,所以我们怀疑可能是发⽣了基因复制;图4我们看到旁系同源基因也跟其他的物种同源,可以推断出这个复制的过程在这两个物种的祖先就已经发⽣了。
表1 构建分⼦进化树相关的软件
软件        ⽹址        说明
⽤mega和genedoc做出漂亮可更改的蛋⽩质⽐对图

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。