.
PAML
——
.
以灵长目动物溶菌与酶编码基因适应性进化分析为例解读Branch Model Branch model .
1.什么是Branch model?
Branch model是PAML软件CODEML程序中通过likelihood ratio test (LRT)进行不同支系间(lineages)适应性进化检测的一种模型。该模型通过限制(constraint)系统发育树中不同分支上的omega(dN/dS)值的异同,并对不同的限制进行显著性分析(PAML软件中的Chi2程序),进而得到较为可靠地分析结果。
在该法提出之前,不少学者通过简约法(parsimony method)或者似然法(likelihood method)先重建祖先序列(ancestral sequence),然后通过对构建的祖先序列的omega值估算进而预测不同支系的适应性进化特征。诸如Prof. Messier等对于灵长目动物溶菌酶的分析便是如此。Prof.Yang认为,从统计学的角度而言,这种将预测的数据当做真实观测数据的分析理念存在一定的随机误差(random errors)和系统误差(systematic errors), 本身并不是一种严谨的统计学方法。
Prof.Yang 所提出的Branch model巧妙地避开了直接利用ancestral sequence进行支系间适应性进化检测的流程,而是通过平均统计每一个节点(each node)中可能的ancestral sequence,根据其相对发生似然率(relative likelihoods of occurance)进行加权分析。此外,Branch model还考虑到了(take into account)密码子转移/颠换速率偏差(transition/transversion rate bias)和非均匀密码子(nonuniform condon usage)这些与omega值计算有着显著关系的影响因素。
.
.
2.Branch model中存在哪些假设模型,在CODEML程序的control file文本中如何选择?
Branch model主要是对系统发育树中的不同支系的omega值的异质性进行界定,主要的model有:one-ratio model,即系统发育树中所有支系的omega 值是相等的;free-ratio model,该模型指的是系统发育树中所有支系的omega值是不相等的。这两个假设是不同支系omega取值的两个极限。此外,还可以设定前景枝(foreground clade),假定其与其余支系(又称背景枝 background clade)的omega值不同。前景枝可以根据需要设置多个。
在control file中,Model=0 表示one-ratio model, Model=1表示free-ratio model. Model=2表示系统发育树中不同omega值得个数,其中所选择前景枝的个数为(n-1)。值得注意的是,当设置Model=2,3,……,n时,需要在tree file中标记所要设置的前景枝,可以标记一个,也可以标记多个。树标记格式如下所示:
((1, 2), 3) #1, 4, 5); 该tree file表示Clade 1,2 and 3为前景枝,其对应的omega值为ω1(用#1表示),其余Clade为背景枝,对应的omega值为ω0(用#0指定,但在PAMl软件中,#0为默认值,故不需要在树中注明)。在result file mlc 文件中,我们可以得到两个不同的omega值。
3.通过Branch Model 可以得到什么样的结论? 3.1不同支系间的omega值是否显著不同
这主要通过比较one-ratio Model 和free-ratio Model对应的likelihood values的差异进行说明。 3.2 前景枝和背景枝的omega是否显著不同
.