phylip使用说明 下载本文

系统发育树的常用算法

1.UPGMA (PHYLIP: neighbour)除权配对法

2.Neighbour Joining (PHYLIP: neighbour)临近距离法

3.Fitch-Margoliash (PHYLIP: fitch)

4.Maximum Parsimony 最大简约性法 DNA sequences (PHYLIP: dnapars) Protein sequences (PHYLIP: protpars)

5.Maximum Likelihood 最大可能性法

DNA sequences (PHYLIP: fastDNAML, Molphy: nucML) Protein sequences (Molphy: protML)

构建进化树的完整步骤

⑴ 对所分析的多序列目标进行排列(do alignment)。

⑵ 构建一个进化树(To reconstrut phyligenetic tree)。

构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。

独立元素法:指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。

独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);

距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。

距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。

一般来说, 最大简约性法

适用于符合以下条件的多序列: i 所要比较的序列的碱基差别小,

ii 对于序列上的每一个碱基有近似相等的变异率, iii 没有过多的颠换/转换的倾向,

iv 所检验的序列的碱基数目较多(大于几千个碱基);

最大可能性法

分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。

UPGMAM(Unweighted pair group method with arithmetic mean) 假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。

邻位相连法

是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。

另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。最好是我们来发展一个更好的算法来解决它。但无疑这是非常难的。我想如果有人能建立这样一个算法的话,那他(她)完全可以在Proc.Natl.Acad.Sci.USA.上发一篇高质量的文章。

⑶ 对进化树进行评估。

主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当

的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。

所谓Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。Permute是另外一种取样方法,其目的与Bootstrap和Jackknife法不同,这里不再介绍。

PHYLIP软件简介

PHYLIP其实是多个软件的压缩包,主要包括五个方面的功能软件:

i,DNA和蛋白质序列数据的分析软件。

ii,序列数据转变成距离数据后,对距离数据分析的软件。

iii,对基因频率和连续的元素分析的软件。

iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)

时,对序列进行分析的软件。

v,按照DOLLO简约性算法对序列进行分析的软件。

vi,绘制和修改进化树的软件。

其他功能

PHYLIP操作基本步骤

1、核酸序列分析 邻位相连法

1.比对好的序列存成PHYLIP格式如*.phy(CLUSTAL X可以输出这样的格式),把文件拷贝到PHYLIP目录下;

2.用Seqboot打开*.phy,复制数(R)为1000,运行后将生成1000套比对序列的文件, Random number seed:(2n+1)(5) 或者(4n+1)(5),运行得到outfile改名为2;

3.用DNADIST(若为蛋白质序列用PROTDIST)运行2。D有四种距离模式可以选择,分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。选项T一般键入一个15-30之间的数字,一般为22,偶数。程序默认的核甘酸替代模型是Kimura双参数模型。Kimura双参数模型允许用户把颠换(transversion)的权重比转换(transition)的权重高。J-C模型(Jukes&Cantor)是最简单的替代模型,假定所有的核甘酸替代频率都

一一相等。选“type D”.改动M的值为1000(和Seqboot分析是的复制数一样),以后这个分析同样要改动。运行后,输出1000个距离矩阵。将得到的outfile改名为3

4. 用Neighbour,或Fitch或Kitsch运行3,M改为1000。获得两个文件一个为outfile,另一个为treefile(里面是一千颗树)。

5. 将outfile改名为4,treefile 改为402,用Consense运行402, 获得严格一致树。其中outfile记录了每个分枝的自展值,treefile可用treeview打开。

最大简约性法(DNAPARS)或最大可能性法(DNAML)

1.比对好的序列存成PHYLIP格式如*.phy(CLUSTAL X可以输出这样的格式),把文件拷贝到PHYLIP目录下;

2.用Seqboot分析*.phy,复制数(R)为1000。运行后生成1000套比对序列的文件,将此文件更名为2。

3.用DNAPARS或DNAML运行2,输入O设定一个序列作为outgroup。输入M改变刚才设置的republicate的数目(1000)。键入Y按回车。生成两个文件outfile和treefile,分别改名为4和402。

4.打开CONSENSE软件,输入402。键入Y按回车,生成两个文件outfile和treefile。其中outfile记录了每个分枝的自展值,treefile可用treeview打开

2、蛋白序列分析

蛋白质数值分析的程序有:Protdist.exe(距离法),Protpars.exe(最大简约法),Protml.exe(最大可能性法)。

Protdist允许用户从3种氨基酸替代模型中(JTT,PMB,PAM, Kimura,categories)选择其中的一种。一般推荐是PAM,这个方法使用一张通过观察氨基酸转换得到的经验表,即DayHoff PAM 001矩阵(DayHoff, 1979)。

Protpares使用的进化模型与Protdist不同,它评估观察到的氨基酸序列转换的可能性时考虑潜在的核甘酸的转换。比如两个氨基酸之间的转换需

要在核甘酸水平上进行三次非同义转换,这个转换的可能性比起那些潜在的核甘酸水平上只要进行两次非同义转换和一次同义转换的氨基酸转化的可能性要小。但是这个程序不提供氨基酸转化的经验据矩阵。