实习四 系统进化分析-Phylip
一、实习目的
1. 掌握利用MP、ML、NJ/UPGMA和FM法构建进化树。
2. 学会使用bootstrap检验进化树的可靠性。
二、实习内容
1.查同源蛋白质或核酸序列
2.利用CLUSTALX做前期准备工作
3.利用MP、ML、NJ/UPGMA和FM构建进化树。
三、作业
任意选取五个以上的物种的同源核酸或蛋白质序列,分别采用最大简约法,最大似然法和距离法构建进化树,给出简洁的步骤和必要的图示,并分析这三种方法的差别。
答:步骤如下:
一、查同源Protein序列
在ENTREZ搜索Glutathione peroxidase(谷光氨肽过氧化氢酶)Homo Sapiens、Pan Troglodytes、Canis Familiaris、Bos Taurus、Mus Musculus、Rattus Norvegicus、Gallus Gallus和Danio Rerio同源蛋白质序列,输出同源序列。
二、构建系统进化树
(一)前期准备工作
1. 用CLUSTALX进行多条序列比对,在output format option选定PHY格式,构建进化树需要phy文件。
1
2.打开seqboot软件,选择刚才生成的phy文件。
2
3.设置参数,如图3,在执行程序得到outfile文件,将文件名改成seqb
3
(一)最大简约法建树(Maximum Parsimonybootstrap检验方法
1. 打开PROTPARS,将刚才生成的seqb文件名输入,按Enter,改M选项为分析multiple data sets,其它参数不变,再根据提示设置数据个数为100,随机数种子为5,设置Number of times to jumble2,再按Enter得到的界面如下图4。
图4参数设置
2. 运行将生成两个文件outfile和outtree,将outfile更名为mpfile,将outtree更名为mptree。用写字板打开mpfile,如下图5;用MEGA5.05打开mptree后,得到下图6,可以看到这两个文件都含有100个进化树。图5、6是其中任一一个。
图5  one of mpfile                        图6  one of mptree
3. 打开CONSENSE(将多个伪样本建成的不同树,根据majority原则,得出一致树)软件,将刚才生成的mptree文件输入。生成两个文件outfile和outtree。Outfile可用记事本打开,outtree可用MEGA5.05打开。将两个文件更名为cmpfile和cmptree,这就是采用MP方法,并使用bootstrap检验,最后得到的最优树。如下图7
图7  MP最优树
(二)最大似然法建树(Maximum Likelihood )
1. 打开PROTML软件。将刚才生成的seqb文件输入,更改M选项为分析多个数据。参数设置和MP法相同,不再赘述。
2. 生成两个文件outfile和outtree。将outfile更名为mlfile,将outtree更名为mltree。用记事本和MEGA5.05分别打开,可以看到这两个文件都含有100个进化树。图8、9为其中之一。
图8                                        图9
3. 打开CONSENSE软件,将刚才生成的mltree文件输入,生成两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用MEGA5.05打开。将两个文件更名为cmlfile和cmltree.。这是我们采用ML方法,并使用bootstrap检验,得到的最优树
                            图10  ML最优进化树
(三)距离法建树(Distance Method)
1. 打开PROTDIST软件,将刚才生成的seqb文件输入,更改M选项为分析多个数据,参数设置和MP、ML法相同,运行后生成文件outfile。该文件包含了与输入文件相同的100个replicate,只不过每个伪样本是以两两序列的进化距离来表示,将outfile改名为distfile。
图11 用PROTDIST程序计算出来的序列两两之间的距离
2. 执行NEIGHBOR软件,这个软件包括了NJ和UPGMA两种建树方法。将上一步生成的distfile输入,更改N,选择建树方法,更改M选项为分析多个数据,生成两个文件outfile和outtree。将其分别更名为njfile/upgmafile和njtree/upgmatree。用记事本和MEGA5.05打开后,可以看到这两个文件都含有100个进化树。图12、13为任意一个。
图12                                      图13
3. 再将njtree/upgmatree文件输入CONSENSE软件,得到两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用MEGA5.05打开。将两个文件更名为cnjfile/cupgmafile和cnjtree/cupgmatree. 这是我们采用NJ/UPGMA方法,并使用bootstrap检验,得到的最优树。
14 NJ/UPGMA方法最优树
4. 执行FITCH软件,将distfile输入,更改M选项为分析多个数据,生成两个文件outfile和ou
ttree。将其分别更名为fmfile和fmtree。用记事本和MEGA5.05打开后,可以看到这两个文件都含有100个进化树。
图15                                        图16
5. 再将fmtree文件输入CONSENSE软件,得到两个文件outfile和outtree。Outfile可用记事本打开,Outtree可用MEGA5.05打开。将两个文件更名为cfmfile和cfmtree. 这是我们采用FM方法,并使用bootstrap检验,得到的最优树。
图17  FM方法最优树。
三、结果分析
虽然三种方法构建进化树的思想不同,Distance是基于距离的算法,它抛开真实的数据完全依照序列比对距离构建进化树,进化树的拓扑结构由两序列的进化距离决定;Maximum Parsimony就是对树的所有拓扑结构进行计算,出替换数最小的那个树为最优树;Maximum Likelihood对每一可能的进化位点分配概率,出概率最大的为最优树三种方法的具体操作却有很多类似之处,所构建的进化树是一样的。三种方法各有长短,就速度而言,Maximum Likelihood的计算速度最慢,而其他两种方法较快。
从得到的进化树来看仅谷光氨肽过氧化氢酶Canis Familiaris(家犬)和Bos Taurus(黄牛)、Mus Musculus( 小家鼠)和Rattus Norvegicus(褐家鼠)、Gallus Gallus(红原鸡)和Danio Rerio(斑马鱼)之间的进化距离最近,蛋白质序列匹配度接近100%。而Homo Sapiens(现代智人)和Pan Troglodytes(黑猩猩)之间的进化距离比较远。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。