生物信息

(1)生物信息学（Bioinformatics）是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门新学科，是利用信息技术和数学方法对生命科学研究中的生物信息进行存储、检索和分析的科学。

(2)生物信息学主要包括三个组成部分：建立可以存放和管理大量生物数据集的数据库；开发确定大数据集中各成员关系的算法和统计方法；使用这些工具来分析和解释不同类型的生物数据，包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达及生化途径等。 (3)生物信息学要解决的核心问题

*研究序列、结构、功能以及表现型的关系

*研究基因、基因组、蛋白质、代谢途径的特征及进化 *基于知识和理论的预测、建模、设计

(4)核酸和蛋白质序列通常保存为FASTA、NBRF/PIR (National Biomedical Research Foundation/Protein Information Resource)、GDE和Raw等格式。

(5)核酸和蛋白质序列比对（sequence alignment）结果常保存为MSF、Phylip或ALN格式。 (6)FASTA格式

FASTA格式的序列由两部分组成，

第一行由大于号“>”或分号“;”（习惯为大于号）打头的任意文字说明，用于序列标记，给出描述、注释等信息，无长度限制；

第二行开始为序列本身，只允许使用核苷酸或氨基酸的编码符号。 FASTA格式的文件扩展名为“.fasta” (7)NBRF/PIR格式

NBRF/PIR格式的由三部分组成，

第一行以大于号“>”开头，后跟一个双字母标记，表示序列类型；然后再跟一个分号，分号后面通常是序列在数据库中的编码（ID）

第二行为序列的文字说明，可长可短、也可以是空白剩余行为序列本身，序列以星号“*”表示结束。 NBRF/PIR格式的文件扩展名为“.pir”或“.seq” (8)GDE格式

GDE格式与FASTA格式基本相同，只是首行为“%”而不是“>” NBRF/PIR格式的文件扩展名为“.gde” (9)Raw格式

Raw格式相当于去除了空白和数字的文本格式，只接受表示序列本身的字母符号 (10)数据库的类型

一级数据库（Primary databases）数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释；如 Genbank、EMBL和DDBJ)

二级数据库（Secondary databases）(对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标立而建的；如 GDB、SCOP）按照数据库中存储的生物数据类型可将数据库分为以下几种类型： *核酸序列数据库例如：GenBank、EMBL、DDBJ *蛋白质序列数据库例如：SWISS-PROT、TrEMBL、PIR *生物大分子结构数据库例如：PDB *基因组数据库例如：Ensembl、MGD、SGD *功能数据库例如：KEGG、DIP、ASDB

(11)国际上权威的核酸序列数据库：欧洲分子生物学实验室的EMBL, 美国生物技术信息中心的GenBank,日本遗传研究所的DDBJ

(12)GenBank是一级数据库（Primary database）。

(13)GenBank的网址：http://www.ncbi.nlm.nih.gov/genbank/ (14)目前使用NCBI的Entrez检索系统查询GenBank中的数据 (15)向GenBank提交数据

BankIt :用于一条或者少数条提交的基于WWW的提交工具软件。

Sequin:提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。

(16)RefSeq数据库:参考序列数据库RefSeq（The Reference Sequences）是NCBI建立的一个经过人工注释和审核的全面、整合的、非冗余的序列数据库。

(17)核酸序列数据库GenBank:包含了所有已知的核酸序列，以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。GenBank数据以指数形式增长，核酸碱基数目大概每14个月就翻一个倍。 (18)RefSeq数据库的特点

*非冗余，RefSeq数据库经过人工审核不存在冗余序列 *明确地将核酸序列和蛋白质序列关联起来 *维持更新，可以反映最新的生物学知识 *数据经过校验，质量相对可靠 (19)蛋白质序列数据库

UniProt是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的。

它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后，后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。 (20)UniProt有三个明显的特点：

*注释:UniProt数据库中包含大量的序列注释信息

*最小冗余:尽量将相关的数据归并，降低数据库的冗余程度。

*与其它数据库的连接:对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息

(21)生物大分子结构数据库

PDB（Protein Data Bank）PDB中含有通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构(蛋白质核酸糖类其它复合物) (22)细菌16S、ITS序列

*原核生物核糖体含有5S rRNA、16S rRNA和23S rRNA 3种rRNA．其中5S含有120个核苷酸，16S含有1540个核苷酸，而23S含有2900个核苷酸。

*核糖体RNA基因序列具有保守性又具有高变异性，是生物进化的计时器，已经被广泛用在细菌分类鉴定中。

*5S rRNA曾被用于环境中微生物的鉴定，但因其携带信息量小，在微生物分析鉴定中而未被广泛采用。 *随后16S rRNA成为细菌种属分类和鉴定的新方法，适合于属内种间的鉴别，在分类学中被誉为“金标准”。 *但16S rRNA的进化速度慢，基因序列相对保守，在对相近种或同一种内的不同菌株之间鉴别时存在一定的局限性，需要进一步的生理生化试验或其他方法作为补充。

*23S rRNA相对较大，其变异性高于16S rRNA，近些年除了仅有的少数菌种的核苷酸序列被报道，目前尚未完全建立其基因库，而且不同细菌种属中该片段的变异性不同，因此在细菌的分类和鉴定中未能得到广泛应用。

*16S~23S rRNA间隔区序列(ITS)位于16S rRNA基因与23S rRNA基因之间高度可变的序列

*16S~23S rRNA间隔区序列(ITS) 具有一定的保守性，且进化速度是16S rRNA的10多倍，它弥补了16S rRNA保守性强，分化程度不够的缺点。

适合那些16S rRNA无法鉴别的关系密切的菌种和种内菌株的鉴别。近年来成为细菌分类和鉴定的热点。 (23)序列比对的概念:为评价相似性(similarity)的程度或同源性(homology)的可能,将两个或更多的序列排列起来以得到最大一致性(identity)（对于蛋白质序列而言是保守性）的过程。序列比对也称序列联配。 (24)一致性 Identity:一致性指两个序列相同的程度。

(25)保守性 Conservation:某一氨基酸残基或序列的改变（突变）保持了原始氨基酸残基的物理化学特征，那么这个突变就是保守的

(26)相似性 Similarity:相似性表示序列之间相关联的程度。与一致性比较相似性进一步考虑了发生保守突变的氨基酸的数目，即考虑了相似氨基酸的数目

(27)同源性 Homology:如果两个序列是来源于一个共同的祖先，那么他们是同源的 (28)同源性是一种论断，两个序列之间要么是同源的，要么是不同源的 (29)如何判断两个序列是否同源？

*我们无法直接判定两个序列是否来源于同一个祖先序列。所以需要推断两个序列是否同源 *两个序列具有较高的一致性（Identity），那么他们可能是同源的

*有一些蛋白质一致性不高，但他们也是同源的，这需要其他信息的支持，例如他们有相似的三维结构，具有相似的功能

(30)同源性可以分为直系同源（orthology）和旁系同源（paralogy）两类

(31)直系同源（orthology）：不同物种间的具有共同进化祖先的同源序列，他们来自于物种形成时的共同祖先基因，他们一般具有相同的功能

(32)旁系同源（paralogy）：同一物种内通过基因复制等机制产生的同源序列，一般具有不同的功能 (33)相似性与同源性的关系

*任何一套序列都可以表现出相似性，并且可以通过联配打分或计算一致性被量化。 *只有序列是从一个不同祖先进化而来，他们才是同源的。

*说序列共有50%的同源时没有意义的，而正确的应该是说他们有50%的相似度，并且可能是同源。 *序列相似搜多可用于预测基因或蛋白质的功能。

*理论就是相似的序列可能是同源的，因此可能具有相似的功能。 (34)空位 Gap:

在进化过程中，两条同源蛋白质序列之间会产生分歧的突变，包括替换、插入，删除。

当两个比对的序列出现插入或者删除时，就会在序列比对中引入一个空位。空位一般使用短横线（-）表示 (35)序列比对的作用

*来自一个共同祖先的序列倾向于在序列、结构和功能上具有一定相似性 *生物大分子的结构和功能可以通过他们的序列相似性预测

(36)全局比对：对序列从头到尾进行比较。试图使尽可能多的字符在同一序列中匹配。全局比对适用于相似度较高而长度相近的序列。

(37)局部比对：寻找序列中相似度最高的区域，也就是匹配密度最高的部分。局部比对适用于某些部位相似度较高，而其他部位差异较大的序列。

(38)局部比对的应用比全局比对更为广泛，因为蛋白质功能位点往往是由较短的序列片段组成，具有相当大的保守性，也就是说蛋白质序列往往具有局部保守的特性。

(39)对于蛋白质的序列最常用的矩阵是PAM矩阵（Point Accepted Mutation）和BLOSUM矩阵Blocks Amino Acid Substitution Matrices）

(40)PAM矩阵:叫做可接受点突变矩阵，基于氨基酸进化的点突变模型，即如果两种氨基酸替换频繁，说明自然界易接受这种替换，那么这对氨基酸替换得分就应该高 (41)PAM1自乘n次得到PAMn，比较常用的是PAM70，PAM90

生物信息

下载：生物信息.doc

最近浏览

最新搜索

站内搜索