一、名词
Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。
Consensus sequence:共有序列——决定启动序列的转录活性大小。各种原核启动序列特定区域内(通常在转录起始点上游-10及-35区域)存在共有序列,是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。
Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结构、功能的算法等,实现对现有数据库中的数据进行发掘。
EST:(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段,长度大约为200~600bp。
Similarity:相似性——是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。
Homology:同源性——是两个对象间的肯定或者否定的关系。如两个基因在进化上是否曾具有共同祖先。从足够的相似性能够判定二者之间的同源性。
Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的相似性矩阵。以序列片段为基础,从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。在每一片段中,计算出每个残基位置的平均贡献,使得整个片段可以有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。
PAM(Point Accepted Mutation):突变数据矩阵PAM即可接受点突变——指1个PAM表示100个残基中发生一个残基突变概率的进化距离。在序列比对中,能够反映一个氨基酸发生改变的概率与两个氨基酸随机出现的概率的比值的矩阵。
Contig:叠连群——是指一组相互两两头尾拼接的可装配成长片段的DNA序列克隆群,也指彼此间可通过重叠序列而连接成连续的、扩展的、不间断的DNA序列的交叠片段产物。通过比对不同的序列,我们能够发现片段的顺序,并且contigs能被添加、删除、重排列来形成新的序列。
Phylogenetic tree:系统发生树又称为演化树(evolutionary tree)——是表明被认为具有共同祖先的各物种间演化关系的树,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。它用来表示系统发生研究的结果,用它描述物种之间的进化关系。
In Silico Cloning:电子克隆——是近年来发展起来的一门基于表达序列标签(ESTs)的快速克隆基因的新技术,其利用种子序列从EST及UniGene数据库中搜索相似性序列,进行拼装、检索、分析等,以此获得目标基因的全长cDNA,在此基础上也能够实现基因作图定位。
二、问题思考
1、生物信息学这门学科是如何发展起来的? 答:生物学数据爆炸式增长
生物大分子数据库相继建立
生物技术与计算机技术并行飞速发展
Internet的广泛应用
人类基因组计划(HGP)的推动
生物信息学的产生是生命科学发展的必然。 2、举例说明生物信息学的主要应用?
答: a. 获取各种生物的全基因组及其他数据; b. 新基因发现;
c. 单核苷酸多态性分析;
d. 基因组中非编码区域的结构与功能;
e. 从基因组水平研究生物进化及其他遗传语言的可能; f. 全基因组的比较研究; g. 基因功能预测;
h. 遗传疾病的研究以及关键基因鉴定; i. 蛋白质组学研究; j. 新药设计和定向化酶; k. 生物芯片.
3、为什么说生物信息学是大规模研究生命科学的利器?
答:生物信息学主要是一门研究生物学系统和生物学过程中信息流的综合系统学科,是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析,并进一步挖掘和解读生物学数据。目前,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解读。还包括:蛋白质空间结构模拟、预测和药物分子设计;软件开发和方法学研究。未来,生物信息学将进一步揭示生命系统的复杂性、遗传语言、基因表达谱、基因组、蛋白质组、代谢组、细胞信号组、系统生物学等等。因此,生物信息学是大规模研究生命科学的利器。
4、生物信息学涉及的生物大分子信息有哪些? 答:涉及的有: 1)核算序列DNA
包括:基因组序列、基因序列、cDNA、EST、碱基修饰、DNA功能模块/位点(如启动子、剪接体、表达调控位点等)。
2)蛋白质Protein
包括:氨基酸组成、氨基酸序列、理化性质、原子坐标、二级结构、模体、结构域、功能域/位点、3D结构。
5、在大分子序列分析中,为何局部比对比全局比对更有意义?
答:全局比对(global alignment)——指全长序列比对,用于相似性很高的序列间的分析。 局部比对(local alignment)——指生物分子序列常常是局部具有较高的相似性,呈板块分布。此法用于整体相似性较低的序列分析,灵敏度高。
原因:
1)全局比对是沿整个长度实现序列之间匹配的最大化,尝试对齐整个序列。而局部比对是对动态规划算法的修改,是给两个序列之间得分最高的地方进行匹配,集中在寻找相似度高的序列的延伸。因此相比而言,在序列分析中将未知序列同已知序列进行相似性比较,局部比对的准确性比全局比对更高。因为要实现整个序列长度的相似性匹配,比起局部匹配分析带来的误差更大;
2)另外,与局部序列比对算法相比,全序列比对算法会导致一些局部序列相似性较高而全序列相似性很小,因为全序列的平均效应而将两者的相似性漏检。一般对于2个未知关系的序列,使用局部序
列比对工具要比用全序列比对工具好。而对于一个较长的序列和一个较短的序列的比对,也应该使用局部序列比对工具。
3)再则全局比对的最高分是最后一个,而局部比对的任何一个地方都可能是最高分,即任何地方都可以是对位起始点,可见局部比对操作更为灵敏。
4)应用范围上,全局比对仅适用于相似性很高的序列间分析,而局部比对一般用于相似性较低的序列分析,但是也可以用于高相似性序列分析,这样的分析结果会更加精准。
所以局部比对比全局比对更加有意义。
6、在大分子序列分析中,为何蛋白质的取代矩阵比核酸的取代矩阵更复杂?
答:取代矩阵(substitution matrix)的规则是“奖励匹配位点,罚扣不匹配位点”,故又称为计分矩阵(scoring matrix)。核算序列分析利用碱基取代矩阵,通过相似性比对匹配与否进行打分,便可以分析出其大致的碱基组成,特异位点等。而蛋白质序列利用其氨基酸残基取代矩阵分析,由于蛋白质的序列组成复制,而且蛋白质的功能是通过其三维高级结构来执行的,该结构又不一定处于静态,在行使功能的过程中,一般会发生相应的改变,所以氨基酸残基的进化取代不能简单地表述各种残基在结构和功能上的关系,所以要对蛋白质序列进一步的分析就需要更加复杂的取代矩阵。
7、多重比对的用途?BLAST的用途? 答:多重比对的用途主要用于:
1) 系统演化分析,解释物种之间的进化关系; 2) 基因预测;
3) 蛋白质结构域的三级结构与二级结构,甚至是个别的氨基酸或核苷酸;
4) 研究一个家族中的相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。 BLAST是现在应用最广泛的序列相似性搜索工具,主要用于:
1) 新DNA序列的发现、定位与分析、结构和功能预测; 2) ESTs的分析;
3) 寻找分析远源关系的蛋白质序列;
4) 实验设计如PCR Primer,Mutagenesis Studies,构建Profile(--谱)等; 5) 揭示相似性和同源性,发现系统发育的信息;
6) 寻找数据库中没有标注的编码区、发现保守区域、特定序列框等重要信息。 8、聚类分析的策略?
答:聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。其策略方法为:
先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。
第一步:点击File→Load Sequences输入序列文件。 第二步:点击Alignment设定比对的一些参数。
第三步:点击Alignment→Do Complete Alignment开始序列比对。
第四步:点击File→Save Sequence as...比对完成,选择保存结果文件的格式。 9、电子克隆比传统的实验克隆有何优势?为何能实现电子克隆?
答:电子克隆利用种子序列从EST及UniGene数据库中搜索相似性序列,进行拼装、检索、分析等,以此获得目标基因的全长cDNA,在此基础上也能够实现基因作图定位。
其相比实验克隆所具有的优势有:
1) 实验进程短、快捷、设备简单; 2) 成本低、得率高、针对性强等;