应用PHYLIP构建进化树的完整详细过程--688IT编程网

一、获取序列

一般自己通过测序得到一段序列（已知或未知的都可以），通过NCBI的BLAST获取相似性较高的一组序列，下载保存为FASTA格式。用BIOEDIT等软件编辑序列名称，注意PHYLIP在DOS下运行，文件名不能超过10位，超过的会自动截留前面10位。

二、多序列比对

目前一般应用CLASTAL X进行，注意输出格式选用PHY格式。生成的指导树文件（DND文件）可以直接用TREEVIEW打开编辑，形式上和最终生成的进化树类似，但是注意不是真正的进化树。

三、构建进化树

1.N-J法建树

依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。具体步骤如下：

（1）打开

输入文件名：输入你用CLASTAL X生成的PHY文件（*.phy）。

R为bootstrap的次数，一般为1000 （设你输入的值为M，即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000）

odd number: (4N+1)(eg: 1、5、9…)

改好了y

得到outfile（在phylip文件夹内）

改名为2

（2）打开Dnadist.EXE

输入2

修改M值，再按D，然后输入1000（M值）

得到outfile（在phylip文件夹内）

改名为3

（3）打开Neighboor.EXE

输入3

M=1000（M值）

按Y

得到outfile和outtree（在phylip文件夹内）

改outtree为4，outfile改为402

(4)打开

输入4

得到outfile和outtree（在phylip文件夹内）

Outfile可以改为*.txt文件，用记事本打开阅读。

四、进化树编辑和阅读

outtree可改为*.tre文件，直接双击在treeview里看；也可以不改文件扩展名，直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。TREEVIEW可以显示BOOTSTRAN值，序列较多（60条以上）的时候打开直接显示有明显的重叠，可以在打印预览中显示，或输出为EMF WMF图片文件看，但是序列较多时BOOTSTRAN值的显示位置比较乱，和序列名称有重叠。

PHYLODRAW的编辑功能较强，可以自由调节X、Y轴的长度。输出格式为BMP、PS格式。缺点是不能直接显示BOOTSTRAN值，包括打开TREEVIEW输出的NEX文件，而且输出的BMP文件不全，类似截屏文件，我用PHOTOSHOP进行拼接合成，添加BOOTSTRAN值和注解符号等。据说也可以将PS文件用记事本打开，改变其中的字号，然后通过ADOBE　DI

STRILLOR将PS转化为PDF，就可以解决问题。如果发现还有重叠，可以再次改变PS文件中的字号大小，直到合适为止。

NJPLOT可以显示BOOTSTRAN值和分值长度。但是不能调节图片X、Y轴的长度。

建MP,ML树将Dnadist和Neighboot两步分别改为Dnapars和Dnaml，其余步骤相同。据说ML法序列较多是非常耗时，我没有尝试。因为我的序列较多。

也可以用CLASTAL X中的BOOTSTRAN N-J TREE法生成进化树，TREE菜单输出格式选项（OUTPUT FORMAT OPTION）中的BOOTSTRAN LABELS ON 选NODE（节点）。在treeview里，选择tree菜单 ,然后把show internal edge lables 的选项打勾了，直接打开生成的文件bootstrap的值就可以显示出来。

下面介绍几个软件的使用。首先是 PHYLIP。其是多个软件的压缩包，下载

后双击则自动解压。当你解压后就挥发现PHYLIP 的功能极其强大，主要包括五

个方面的功能软件：i，DNA 和蛋白质序列数据的分析软件。ii，序列数据转变

成距离数据后，对距离数据分析的软件。 iii，对基因频率和连续的元素分析的

软件。iv，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态

时，对序列进行分析的软件。v，按照 DOLLO 简约性算法对序列进行分析的软

件。vi，绘制和修改进化树的软件。在此，我主要对前两种功能软件进行说明。

我们现在有几个序列如下：

Mo3 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT

Mo5 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo6 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo7 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT

Mo8 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT

Mo9 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

Mo12 ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT

Mo13 ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT

要对这8个序列进行进化树分析，按照上面的步骤，首先用 CLUSTALX排列序

列，输出格式为 *.PHY。用记事本打开如下图：

图中的 8 和 50 分别表示 8 个序列和每个序列有 50 个碱基。然后，打开软件

SEQBOOT，如下图：

按路径输入刚才生成的 *.PHY文件，并在Random number seed (must be odd) ?

的下面输入一个4N+1 的数字后，屏幕显示如下：

图中的 D、J、R、I、O、1、2 代表可选择的选项，键入这些字母，程序的条件

就会发生改变。D选项无须改变。J 选项有三种条件可以选择，分别是Bootstrap、

Jackknife 和 Permute。文章上面提到用 Bootstraping 法对进化树进行评估，所谓

Bootstraping 法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半

序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个

多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可

bootstrap 软件能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。将生

成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最

“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap

法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。Permute

是另外一种取样方法，其目的与 Bootstrap和Jackknife法不同，这里不再介绍。

R 选项让使用者输入 republicate 的数目。所谓 republicate 就是用 Bootstrap 法生

成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的

republicate。当我们设置好条件后，键入 Y按回车。得到一个文件outfile

Outfile用记事本打开如下：

这个文件包括了100个republicate。

打开DNAPARS（最大简约性法）或DNAML（最大可能性法）软件。将刚才生

成的outfile文件更名后输入。如下图：

选项O是让使用者设定一个序列作为outgroup。一般选择一个亲缘关系与所分析

序列组很接近的序列作为outgroup（本例子不选outgroup），outgroup 选择的好坏

将直接影响到最后的进化树的好坏。选项 M 是输入刚才设置的 republicate 的数

目。设置好条件后，键入 Y按回车。生成两个文件outfile和treefile。

Outfile打开如下图：

该文件包括了227个进化树。Treefile可以用TREEVIEW 软件打开同样包含了这

227个进化树。

打开CONSENSE 软件，将刚才生成的treefile文件更名后输入。如下图：

键入 Y 按回车。生成两个文件 outfile 和 treefile。Treefile 用 TREEVIEW 打开，

如下图：

Outfile打开如下图：

我们看出两个树是同样的。但在 outfile 的树上的数字表示该枝条的 Bootstrap 支

持率（除以100.6）。到现在，8个序列的进化树分析（最大简约法）已经完成。

如果要用邻位相连法对这 8 个序列进行分析的话，也首先执行 SEQBOOT 软

件将这8个序列变成100个republicate。然后，打开DNADIST软件，把SEQBOOT

生成的文件输入，如下图：

选项 D 有四种距离模式可以选择，分别是 Kimura 2-parameter、Jin/Nei、

Maximum-likelihood 和 Jukes-Cantor。选项 T 一般键入一个 15-30 之间的数字。

选项M 键入100。运行后生成文件如下图：

这个文件包含了与输入文件相同的100个republicate，只不过每个 republicate是

以两两序列的进化距离来表示。文件中的每个republicate都省略了第一排的Mo3

Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以这个输出文件为输入文件，

执行NEIGHBOR 软件。如下图：

选项 M 键入 100。生成两个文件 outfile 和 treefile 用记事本和 TREEVIEW 打开

后，发现这两个文件都含有 100 个进化树。再将 treefile 文件更名后输入

CONSENSE 软件，又得到两个文件 outfile和treefile，这就是最后的结果。以上

是对DNA序列的分析，如果要对蛋白质序列进行分析，PROTDIST、PROTPARS

等软件。其他软件的用法可以参照PHYLIP 的documents。

688IT编程网

应用PHYLIP构建进化树的完整详细过程

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

应用PHYLIP构建进化树的完整详细过程

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式