精品文档
生物信息学,
一、名词解释:
1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。
2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。
3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。 4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。
5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。
6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。
7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。 二、简答题:
1、分子生物学的三大核心数据库是什么?它们各有何特点?
GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库; 2、简述生物信息学的发生和发展。
20世纪50年代,生物信息学开始孕育;
20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来; 20世纪70年代,生物信息学的真正开端;
20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方; 20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库; 20世纪90年代后,HGP促进生物信息学的迅速发展。 3、生物信息学的主要方法和技术是什么?
数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(Internet)技术
4、常见的DNA测序方法有哪些?各有何技术特点和优缺点? Maxam-Gilbert DNA化学降解法:
优点:可测完全未知序列及CG富含区; 缺点:操作繁琐;
Sanger双脱氧链终止法: 优点:简便,可测较长片段; 缺点:需已知部分序列或加接头; 焦磷酸测序:
优点:廉价、高通量; 缺点:一次测序片段短。
5、分子生物学数据库有哪些类型?各有何特点?
基因组数据库:基因组测序 核酸序列数据库:核酸序列测定
一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结构数据库:X-衍射和核磁共振
特点:数量少,容量大,更新快 精品文档
精品文档
二次数据库:上述四类数据库和文献资料为基础构建 特点:数量多,容量小,更新慢 6、简述NCBI Entrez系统的功能。
高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、突变数据、探针序列、单核苷酸多态性等数据。 7、简述NCBI BLAST的功能和种类。 序列相似性比对工具;
对核酸:普通blastn,对高度相似序列megablast; 对蛋白质:普通blastp,对保守域rpsblast;
对人工翻译序列:核酸翻译序列对蛋白质序列blastx,蛋白质对翻译序列tblastn,核酸翻译序列对翻译序列tblastx;
其它:基因组blast,基因表达序列搜索GEO blast,序列两两比对……
三、论述题:
1、什么是生物信息学?生物信息学有哪些主要应用领域?
生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。
生物分子数据的收集与管理;数据库搜索及序列比较;基因组序列分析;基因表达数据的分析与处理;蛋白质结构预测。
2、生物信息学在医药领域有什么应用? 辅助诊断(遗传病,HLA分型);
研究药物作用机制,辅助新药物开发和制造。
3、人类基因组计划中主要使用的那些生物信息学手段?它们对人类基因组计划发挥了哪些重大作用?
单一测序结果判读;contig和chromosome拼接;识别基因区及其调控区;寻找基因相互作用的时空关系;
4、试述蛋白质二级结构预测的主要策略和方法。 策略:
目标:判断每一段中心的残基是否处于a螺旋、b折叠、b转角(或其它状态)之一的二级结构态,即三态。
a、理论分析法(从头计算法):通过理论计算(分子力学、分子动力学等)进行结构预测。 优点:不需要经验数据,由一级结构推测高级结构
缺点:天然和未折叠蛋白间能级差很小 (kcal/mol);蛋白质可能的构想空间庞大,针对蛋白质折叠的计算量巨大;计算模型中力场参数不准确。
b、统计方法:对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸预测结构。
c经验性方法:根据一定序列形成一定结构的倾向进行结构预测。通过对已知结构的蛋白质进行统计分析,发现各种氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规律。
d结构规律提取方法:从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规律,指导建立未知结构的蛋白质模型。
e同源模型化方法:通过同源序列分析或模式匹配,预测蛋白质的空间结构或结 精品文档
精品文档
构单元。 方法:
1、Chou-Fasman方法;(基于单个氨基酸残基统计的经验参数方法,由Chou 和Fasman在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结 构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。)
2 GOR方法;(是一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连串的信息值来处理;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响)
3、基于氨基酸疏水性的方法;4、最邻近方法;5、人工神经网络方法;6、综合方法:7、利用进化信息预测蛋白质的二级结构。
1. 生物信息学:
1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科; 2)它综合运用了数学、计算机学和生物学的各种工具来进行研究; 3)目的在于阐明大量生物学数据所包含的生物学意义。 2. BLAST(Basic Local Alignment Search Tool) 直译:基本局部排比搜索工具
意译:基于局部序列排比的常用数据库搜索工具
含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库
3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。 4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。 7. 非信息位点:对于最大简约法来说没有意义的点。
8. 标度树:分支长度与相邻节点对的差异程度成正比的树。 9. 非标度树:只表示亲缘关系无差异程度信息。 10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其
他任何节点。 11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,
可以在无根树中指派根节点。 12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基
因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。 14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法
和数据本身的分析方法。 15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个
预定义的类目中。
16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通精品文档