基酸分成了两种:包埋的和暴露的,根据这个分别计算不同位置氨基酸的ω比例。这种分析证实了一个假设:位于蛋白表面的氨基酸是受正选择的。可以参考文件夹中的readme文件。
3)examples\\lysozyme\\文件夹:这个文件夹包含灵长类的溶菌酶c基因,这个酶基因在1997年曾被Messier和Stewart分析过,但是在1998年Yang对这些数据进行了重新分析。这是为了阐述这样一个模型:系统发育树上不同的枝有不同的ω比例。这对于检测进化枝中的正选择是有用的。这些模型有时被人们称作分支模型或者分支特异性模型。在1998年Yang发表的论文中的大数据和小数据都包括在文件夹中。这些模型需要用户为发育树上的分支分类,在readme文件中包含树文件并非常详细解释了树的结构。请参考随后的“Tree file and representations of tree topology”。
溶菌酶数据还在Yang和Nielse的2002年的论文中分析“branch-site”模型,这个模型允许ω在进化枝和氨基酸位点之间存在差异。请参考readme文件中关于这个
模型的使用。
4)examples\\MouseLemurs\\文件夹:这个文件夹中包括mtDNA的排列后数据,这些数据在Yang and Yoder在2003年发表的论文中用于估计mouse lemurs的分歧时间。这些数据用于阐述在全局和局部分子钟模型下,用最大似然法估计物种的分歧时间。在这个文章中描述的最复杂的模型是同时应用了多重的进化速率(multiple calibration nodes)计算多个基因之间的不同,此外还计算了不同进化枝之间的不同速率。readme文件解释了2004年Yang论文中的ad hoc比例平滑程序。
5)examples\\mtCDNA\\文件夹:这个文件夹中存放了Yang、Nielsen和Hasegawa在1998年发表的论文中使用的数据,这些数据包括猿类动物线粒体DNA编码的
12个蛋白编码基因,对于这些序列的分析基于数种不同的氨基酸和密码子替代模型。根据这个论文的说法,这些数据是小数据(“small” data set),分析这些数据不仅仅采用密码子替代的机理模型(“mechanistic” model),还使用了经验模型(empirical model)。这个模型可以用于检测保守的和突变率较高的氨基酸位点的替代速率是否相等。详细叙述请参考文件夹中的readme文件。
6)examples\\TipDate\\文件夹:这个文件夹中包括了Rambaut在2000年发表的论文中的数据,这些数据用于描述他的TipDate模型。readme文件中阐述了如何用baseml程序拟合TipDate模型——一个全局的分子钟模型。局部的分子中模型也一样可以使用,参考examples\\MouseLemurs\\文件夹中的介绍。注意我在序列名字中使用@表示序列确定的时间。这里的文件可以被Rambaut的TipDate程序直接读取,但是如果要被baseml程序读取的话,则需要编辑一下(插入@符号)。
7)网站上下载到得文档包中还有一些其他的文件:
brown.nuc和brown.tree文件:Brown等人在1982年报道的线粒体DNA的一个895bp的片段,这个片段在1994年由Yang等人拿来检测位点特异的突变速率模型。
mtprim9.nuc和9s.trees:9个灵长类动物的线粒体中的一个888个碱基的DNA排列文件(Hayasaka et al. 1988),这些序列还用来检测不连续的gamma模型(Yang
(1994a))和自动不连续gamma模型(Yang (1995))。
abglobin.nuc和abglobin.tree:α-和 β-珠蛋白基因,这些数据用来描述密码子模型(Goldman and Yang (1994))。abglobin.aa是序列排列后翻译成氨基酸的序列。
stewart.aa和stewart.tree:六个哺乳动物的溶菌酶蛋白序列(Stewart et al.
1987),用于预测祖先氨基酸序列(Yang et al. 1995a)。
3、数据格式
3.1序列数据格式
参考下载的文档包中的一些实例数据文件(扩展名为.nuc、.aa和.nex)。你可以把你的数据文件存储为任何一种格式,这样PAML程序们就应该可以读取这些文件。比较合适的文件格式就是PHYLIP格式,这个格式是Joe Felsenstei开发的PHYLIP软件包的格式(Felsenstein 2005)。PAML程序们对于NEXUS文件格
式的支持比较有限(PAUP程序和MacClade程序)。对于这种格式的文件,PAML文件可以读取序列数据和树,但是命令块则忽略掉了。PAML没有办法处理注释的部分,因此请避免使用这些。
sequential格式和interleaved格式
以下是PHYLIP程序(Felsenstein 2005)的常用格式,第一行包含物种数量以及序列长度(可能随后还有一个可选性质),对于密码子序列(codeml中seqtype=1),序列的长度表示碱基的数目而不是密码子的数目。序列中允许的选项包括 I、S、P、C和G。序列可以是interleaved格式的(选项I,例如abglobin.nuc),或者sequential格式(选项S,例如brown.nuc)。默认的选项是S。选项G用于分析多个基因数据,随后将会介绍。下面就是一个sequential格式的数据实例(图1),这个实例包含4个长度为60的核苷酸(20个密码子):
图1. sequential格式的数据
物种/序列的名字
在物种/序列的名字中不要出现一下字符:“, : # ( ) $ =”,因为这会使程序感到很痛苦。@字符可以用于序列的名字以定义序列确定的日期,例如
virusl@1984,这时@会成为名字的一部分,即序列在1984年确定。物种名字的最大字符数目在主体程序baseml.c和codeml.c的开始即定义,在PHYLIP软件中,物种的名字必须精确地为10个字符,我觉得这太严格了。所以我用的默认的字符数目为30。为了解决名字字符数目差异这一问题,PAML考虑在物种名字后面加上两段连续的空格符,因此物种的名字就不必是精确的30个(或者10个)。为了符合这个规则,请不要在物种的名字中间加上两段连续的空格。例如上述的序列数据也可以是下面的格式(图2)。