实习四 系统进化分析-Phylip
一、实习目的
1. 掌握利用MP、ML、NJ/UPGMA和FM法构建进化树。
2. 学会使用bootstrap检验进化树的可靠性。
二、实习内容
1.查同源蛋白质或核酸序列
2.利用CLUSTALX做前期准备工作
3.利用MP、ML、NJ/UPGMA和FM构建进化树。
三、作业
任意选取五个以上的物种的同源核酸或蛋白质序列,分别采用最大简约法,最大似然法和距离法构建进化树,给出简洁的步骤和必要的图示,并分析这三种方法的差别。
答:步骤如下:
一、查同源Protein序列
在ENTREZ搜索Glutathione peroxidase(谷光氨肽过氧化氢酶)Homo Sapiens、Pan Troglodytes、Canis Familiaris、Bos Taurus、Mus Musculus、Rattus Norvegicus、Gallus Gallus和Danio Rerio同源蛋白质序列,输出同源序列。
二、构建系统进化树
(一)前期准备工作
1. 用CLUSTALX进行多条序列比对,在output format option选定PHY格式,构建进化树需要phy文件。
图1
2.打开seqboot软件,选择刚才生成的phy文件。
图2
3.设置参数,如图3,在执行程序得到outfile文件,将文件名改成seqb。
图3
(一)最大简约法建树(Maximum Parsimony)bootstrap检验方法
1. 打开PROTPARS,将刚才生成的seqb文件名输入,按Enter,改M选项为分析multiple data sets,其它参数不变,再根据提示设置数据个数为100,随机数种子为5,设置Number of times to jumble为2,再按Enter,得到的界面如下图4。
图4参数设置
2. 运行将生成两个文件outfile和outtree,将outfile更名为mpfile,将outtree更名为mptree。用写字板打开mpfile,如下图5;用MEGA5.05打开mptree后,得到下图6,可以看到这两个文件都含有100个进化树。图5、6是其中任一一个。
图5 one of mpfile 图6 one of mptree
3. 打开CONSENSE(将多个伪样本建成的不同树,根据majority原则,得出一致树)软件,将刚才生成的mptree文件输入。生成两个文件outfile和outtree。Outfile可用记事本打开,outtree可用MEGA5.05打开。将两个文件更名为cmpfile和cmptree,这就是采用MP方法,并使用bootstrap检验,最后得到的最优树。如下图7
图7 MP最优树
(二)最大似然法建树(Maximum Likelihood )
1. 打开PROTML软件。将刚才生成的seqb文件输入,更改M选项为分析多个数据。参数设置和MP法相同,不再赘述。
2. 生成两个文件outfile和outtree。将outfile更名为mlfile,将outtree更名为mltree。用记事本和MEGA5.05分别打开,可以看到这两个文件都含有100个进化树。图8、9为其中之一。
图8 图9
3. 打开CONSENSE软件,将刚才生成的mltree文件输入,生成两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用MEGA5.05打开。将两个文件更名为cmlfile和cmltree.。这是我们采用ML方法,并使用bootstrap检验,得到的最优树
图10 ML最优进化树
(三)距离法建树(Distance Method)
1. 打开PROTDIST软件,将刚才生成的seqb文件输入,更改M选项为分析多个数据,参数设置和MP、ML法相同,运行后生成文件outfile。该文件包含了与输入文件相同的100个replicate,只不过每个伪样本是以两两序列的进化距离来表示,将outfile改名为distfile。
图11 用PROTDIST程序计算出来的序列两两之间的距离
2. 执行NEIGHBOR软件,这个软件包括了NJ和UPGMA两种建树方法。将上一步生成的distfile输入,更改N,选择建树方法,更改M选项为分析多个数据,生成两个文件outfile和outtree。将其分别更名为njfile/upgmafile和njtree/upgmatree。用记事本和MEGA5.05打开后,可以看到这两个文件都含有100个进化树。图12、13为任意一个。
图12 图13
3. 再将njtree/upgmatree文件输入CONSENSE软件,得到两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用MEGA5.05打开。将两个文件更名为cnjfile/cupgmafile和cnjtree/cupgmatree. 这是我们采用NJ/UPGMA方法,并使用bootstrap检验,得到的最优树。
图14 NJ/UPGMA方法最优树
4. 执行FITCH软件,将distfile输入,更改M选项为分析多个数据,生成两个文件outfile和ou
ttree。将其分别更名为fmfile和fmtree。用记事本和MEGA5.05打开后,可以看到这两个文件都含有100个进化树。
图15 图16
5. 再将fmtree文件输入CONSENSE软件,得到两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用MEGA5.05打开。将两个文件更名为cfmfile和cfmtree. 这是我们采用FM方法,并使用bootstrap检验,得到的最优树。
图17 FM方法最优树。
三、结果分析
虽然三种方法构建进化树的思想不同,Distance是基于距离的算法,它抛开真实的数据完全依照序列比对距离构建进化树,进化树的拓扑结构由两序列的进化距离决定;Maximum Parsimony就是对树的所有拓扑结构进行计算,出替换数最小的那个树为最优树;Maximum Likelihood对每一可能的进化位点分配概率,出概率最大的为最优树。三种方法的具体操作却有很多类似之处,所构建的进化树是一样的。三种方法各有长短,就速度而言,Maximum Likelihood的计算速度最慢,而其他两种方法较快。
从得到的进化树来看仅谷光氨肽过氧化氢酶Canis Familiaris(家犬)和Bos Taurus(黄牛)、Mus Musculus( 小家鼠)和Rattus Norvegicus(褐家鼠)、Gallus Gallus(红原鸡)和Danio Rerio(斑马鱼)之间的进化距离最近,蛋白质序列匹配度接近100%。而Homo Sapiens(现代智人)和Pan Troglodytes(黑猩猩)之间的进化距离比较远。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论