生物信息

(1)生物信息学(Bioinformatics)是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储、检索和分析的科学。

(2)生物信息学主要包括三个组成部分:建立可以存放和管理大量生物数据集的数据库;开发确定大数据集中各成员关系的算法和统计方法;使用这些工具来分析和解释不同类型的生物数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达及生化途径等。 (3)生物信息学要解决的核心问题

*研究序列、结构、功能以及表现型的关系

*研究基因、基因组、蛋白质、代谢途径的特征及进化 *基于知识和理论的预测、建模、设计

(4)核酸和蛋白质序列通常保存为FASTA、NBRF/PIR (National Biomedical Research Foundation/Protein Information Resource)、GDE和Raw等格式。

(5)核酸和蛋白质序列比对(sequence alignment)结果常保存为MSF、Phylip或ALN格式。 (6)FASTA格式

FASTA格式的序列由两部分组成,

第一行由大于号“>”或分号“;”(习惯为大于号)打头的任意文字说明,用于序列标记,给出描述、注释等信息,无长度限制;

第二行开始为序列本身,只允许使用核苷酸或氨基酸的编码符号。 FASTA格式的文件扩展名为“.fasta” (7)NBRF/PIR格式

NBRF/PIR格式的由三部分组成,

第一行以大于号“>”开头,后跟一个双字母标记,表示序列类型;然后再跟一个分号,分号后面通常是序列在数据库中的编码(ID)

第二行为序列的文字说明,可长可短、也可以是空白 剩余行为序列本身,序列以星号“*”表示结束。 NBRF/PIR格式的文件扩展名为“.pir”或“.seq” (8)GDE格式

GDE格式与FASTA格式基本相同,只是首行为“%”而不是“>” NBRF/PIR格式的文件扩展名为“.gde” (9)Raw格式

Raw格式相当于去除了空白和数字的文本格式,只接受表示序列本身的字母符号 (10)数据库的类型

一级数据库(Primary databases)数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;如 Genbank、EMBL和DDBJ)

二级数据库(Secondary databases)(对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标立而建的 ;如 GDB、SCOP) 按照数据库中存储的生物数据类型可将数据库分为以下几种类型: *核酸序列数据库 例如:GenBank、EMBL、DDBJ *蛋白质序列数据库例如:SWISS-PROT、TrEMBL、PIR *生物大分子结构数据库例如:PDB *基因组数据库例如:Ensembl、MGD、SGD *功能数据库例如:KEGG、DIP、ASDB

(11)国际上权威的核酸序列数据库:欧洲分子生物学实验室的EMBL, 美国生物技术信息中心的GenBank,日本遗传研究所的DDBJ

(12)GenBank是一级数据库(Primary database)。

(13)GenBank的网址:http://www.ncbi.nlm.nih.gov/genbank/ (14)目前使用NCBI的Entrez检索系统查询GenBank中的数据 (15)向GenBank提交数据

BankIt :用于一条或者少数条提交的基于WWW的提交工具软件。

Sequin:提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。

(16)RefSeq数据库:参考序列数据库RefSeq(The Reference Sequences)是NCBI建立的一个经过人工注释和审核的全面、整合的、非冗余的序列数据库。

(17)核酸序列数据库GenBank:包含了所有已知的核酸序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。GenBank数据以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。 (18)RefSeq数据库的特点

*非冗余,RefSeq数据库经过人工审核 不存在冗余序列 *明确地将核酸序列和蛋白质序列关联起来 *维持更新,可以反映最新的生物学知识 *数据经过校验,质量相对可靠 (19)蛋白质序列数据库

UniProt是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的。

它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。 (20)UniProt有三个明显的特点 :

*注释:UniProt数据库中包含大量的序列注释信息

*最小冗余:尽量将相关的数据归并,降低数据库的冗余程度。

*与其它数据库的连接:对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息

(21)生物大分子结构数据库

PDB(Protein Data Bank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构(蛋白质 核酸 糖类 其它复合物) (22)细菌16S、ITS序列

*原核生物核糖体含有5S rRNA、16S rRNA和23S rRNA 3种rRNA.其中5S含有120个核苷酸,16S含有1540个核苷酸,而23S含有2900个核苷酸。

*核糖体RNA基因序列具有保守性又具有高变异性,是生物进化的计时器,已经被广泛用在细菌分类鉴定中。

*5S rRNA曾被用于环境中微生物的鉴定,但因其携带信息量小,在微生物分析鉴定中而未被广泛采用。 *随后16S rRNA成为细菌种属分类和鉴定的新方法,适合于属内种间的鉴别,在分类学中被誉为“金标准”。 *但16S rRNA的进化速度慢,基因序列相对保守,在对相近种或同一种内的不同菌株之间鉴别时存在一定的局限性,需要进一步的生理生化试验或其他方法作为补充。

*23S rRNA相对较大,其变异性高于16S rRNA,近些年除了仅有的少数菌种的核苷酸序列被报道,目前尚未完全建立其基因库,而且不同细菌种属中该片段的变异性不同,因此在细菌的分类和鉴定中未能得到广泛应用。

*16S~23S rRNA间隔区序列(ITS)位于16S rRNA基因与23S rRNA基因之间高度可变的序列

*16S~23S rRNA间隔区序列(ITS) 具有一定的保守性,且进化速度是16S rRNA的10多倍,它弥补了16S rRNA保守性强,分化程度不够的缺点。

适合那些16S rRNA无法鉴别的关系密切的菌种和种内菌株的鉴别。近年来成为细菌分类和鉴定的热点。 (23)序列比对的概念:为评价相似性(similarity)的程度或同源性(homology)的可能,将两个或更多的序列排列起来以得到最大一致性(identity)(对于蛋白质序列而言是保守性)的过程。序列比对也称序列联配。 (24)一致性 Identity:一致性指两个序列相同的程度。

(25)保守性 Conservation:某一氨基酸残基或序列的改变(突变)保持了原始氨基酸残基的物理化学特征,那么这个突变就是保守的

(26)相似性 Similarity:相似性表示序列之间相关联的程度。与一致性比较相似性进一步考虑了发生保守突变的氨基酸的数目,即考虑了相似氨基酸的数目

(27)同源性 Homology:如果两个序列是来源于一个共同的祖先,那么他们是同源的 (28)同源性是一种论断,两个序列之间要么是同源的,要么是不同源的 (29)如何判断两个序列是否同源?

*我们无法直接判定两个序列是否来源于同一个祖先序列。所以需要推断两个序列是否同源 *两个序列具有较高的一致性(Identity),那么他们可能是同源的

*有一些蛋白质一致性不高,但他们也是同源的,这需要其他信息的支持,例如他们有相似的三维结构,具有相似的功能

(30)同源性可以分为直系同源(orthology)和旁系同源(paralogy)两类

(31)直系同源(orthology):不同物种间的具有共同进化祖先的同源序列,他们来自于物种形成时的共同祖先基因,他们一般具有相同的功能

(32)旁系同源(paralogy):同一物种内通过基因复制等机制产生的同源序列,一般具有不同的功能 (33)相似性与同源性的关系

*任何一套序列都可以表现出相似性,并且可以通过联配打分或计算一致性被量化。 *只有序列是从一个不同祖先进化而来,他们才是同源的。

*说序列共有50%的同源时没有意义的,而正确的应该是说他们有50%的相似度,并且可能是同源。 *序列相似搜多可用于预测基因或蛋白质的功能。

*理论就是相似的序列可能是同源的,因此可能具有相似的功能。 (34)空位 Gap:

在进化过程中,两条同源蛋白质序列之间会产生分歧的突变,包括替换、插入,删除。

当两个比对的序列出现插入或者删除时,就会在序列比对中引入一个空位。空位一般使用短横线(-)表示 (35)序列比对的作用

*来自一个共同祖先的序列倾向于在序列、结构和功能上具有一定相似性 *生物大分子的结构和功能可以通过他们的序列相似性预测

(36)全局比对:对序列从头到尾进行比较。试图使尽可能多的字符在同一序列中匹配。全局比对适用于相似度较高而长度相近的序列。

(37)局部比对:寻找序列中相似度最高的区域,也就是匹配密度最高的部分。局部比对适用于某些部位相似度较高,而其他部位差异较大的序列。

(38)局部比对的应用比全局比对更为广泛,因为蛋白质功能位点往往是由较短的序列片段组成,具有相当大的保守性,也就是说蛋白质序列往往具有局部保守的特性。

(39)对于蛋白质的序列最常用的矩阵是PAM矩阵(Point Accepted Mutation)和BLOSUM矩阵Blocks Amino Acid Substitution Matrices)

(40)PAM矩阵:叫做可接受点突变矩阵,基于氨基酸进化的点突变模型,即如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨基酸替换得分就应该高 (41)PAM1自乘n次得到PAMn,比较常用的是PAM70,PAM90

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4