精品文档
第八章 多序列比对的实际应用
Andreas D.Baxevanis
Genome Technology Branch National Human Genome Research Institude National Institutes of Health Bethesda.Maryland 在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。
由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。
渐进比对方法
CLUSTAL W
CLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对
精品文档
精品文档
于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列
Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette
ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.
的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始,为组建比对提供基础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么毫无疑问,必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在α-螺旋或β-折叠末端的特殊残基以及空位罚分所偏好的残基,众所周知,这些残基更喜欢显示这个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些空位扩展罚分计算是有位置决定的。
为了介绍基于UNIX平台的CLUSTAL W的使用,考虑一下从四种不同物种来源的UIA蛋白(人类,鼠,Xenopus laevis和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以接受的格式中的一种,然后在UNIX提示符下执行clustalw,用户必须执行命令才会看见主菜单:
********************************************************************* **********CLUSTAL W(1.60) Multiple Sequence Alignments******************
********************************************************************* 1. Sequence Input From Disc 2. Multiple Alignments
3. Profile / Structure Alignments 4. Phylogenetic trees S. Execute a system command H. HELP
精品文档
精品文档
X. EXIT (leave program) Your choice: 1
选择菜单中的选项1(Sequence Input From Disc)以输入要比对的序列,选择1后会出现序列输入菜单:
Sequences should all be in 1 title. 6 formats accepted:
NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF. Enter the name of the sequence file: UIA.seqs
系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文件名为UIA.seqs,一旦输入这个文件名,屏幕上会显示读取文件的过程,然后返回主菜单,这时,用户可以选择选项2进行多序列比对: **************** MULTIPLE ALIGNMENT MENU ***************** 1. DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate) 2. Produce guide tree file only
3. do alignment using old guide tree file
4. Toggle Slow Fast pairwise alignments = SLOW 5. Pairwise alignment parameters 6. Multiple alignment parameters 7. Reset gaps between alignments? = ON 8. Toggle screen display = ON 9. Output format ooptions S. Execute a system command H. HELP
or press [RETURN] to go back to main menu Your choice: 1
从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在
Multiple Alignment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧到什么程度证明可以跳过一个序列,选择一个分值矩阵(BLOSUM或PAM),并且可以选择当一个亲水残基出现(或缺失)在一个特异位
精品文档