(1)
生物信息?/p>
?/p>
Bioinformatics
)是生命科学、计算机科学、现代信息科学、数学、物理学以及化学等多?/p>
学科交叉结合形成的一门新学科,是利用信息技术和数学方法对生命科学研究中的生物信息进行存储、检
索和分析的科学?/p>
(2)
生物信息学主要包括三个组成部?/p>
:建立可以存放和管理大量生物数据集的数据库;开发确定大数据?/p>
中各成员关系的算法和统计方法;使用这些工具来分析和解释不同类型的生物数据,包?/p>
DNA
?/p>
RNA
和蛋
白质序列、蛋白质结构、基因表达及生化途径等?/p>
(3)
生物信息学要解决的核心问?/p>
*
研究序列、结构、功能以及表现型的关?/p>
*
研究基因、基因组、蛋白质、代谢途径的特征及进化
*
基于知识和理论的预测、建模、设?/p>
(4)
核酸和蛋白质序列通常保存?/p>
FASTA
?/p>
NBRF/PIR
(National
Biomedical
Research
Foundation/Protein
Information Resource)
?/p>
GDE
?/p>
Raw
等格式?/p>
(5)
核酸和蛋白质序列比对?/p>
sequence alignment
)结果常保存?/p>
MSF
?/p>
Phylip
?/p>
ALN
格式?/p>
(6)FASTA
格式
FASTA
格式的序列由两部分组成,
第一行由大于号?/p>
>
”或分号?/p>
;
?/p>
(习惯为大于号)打头的任意文字说明,用于序列标记,给出描述、注?/p>
等信息,无长度限制;
第二行开始为序列本身,只允许使用核苷酸或氨基酸的编码符号?/p>
FASTA
格式的文件扩展名为?/p>
.fasta
?/p>
(7)NBRF/PIR
格式
NBRF/PIR
格式的由三部分组成,
第一行以大于号?/p>
>
”开头,后跟一个双字母标记,表示序列类型;然后再跟一个分号,分号后面通常是序
列在数据库中的编码(
ID
?/p>
第二行为序列的文字说明,可长可短、也可以是空?/p>
剩余行为序列本身,序列以星号?/p>
*
”表示结束?/p>
NBRF/PIR
格式的文件扩展名为?/p>
.pir
”或?/p>
.seq
?/p>
(8)GDE
格式
GDE
格式?/p>
FASTA
格式基本相同,只是首行为?/p>
%
”而不是?/p>
>
?/p>
NBRF/PIR
格式的文件扩展名为?/p>
.gde
?/p>
(9)Raw
格式
Raw
格式相当于去除了空白和数字的文本格式,只接受表示序列本身的字母符?/p>
(10)
数据库的类型
一级数据库
?/p>
Primary databases
?/p>
数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理
和注释;?/p>
Genbank
?/p>
EMBL
?/p>
DDBJ)
二级数据库(
Secondary
databases
?/p>
(
对原始生物分子数据进行整理、分类的结果,是在一级数据库、实?/p>
数据和理论分析的基础上针对特定的应用目标立而建?/p>
;如
GDB
?/p>
SCOP
?/p>
按照数据库中存储的生物数据类型可将数据库分为以下几种类型?/p>
*
核酸序列数据?/p>
例如?/p>
GenBank
?/p>
EMBL
?/p>
DDBJ
*
蛋白质序列数据库例如?/p>
SWISS-PROT
?/p>
TrEMBL
?/p>
PIR
*
生物大分子结构数据库例如?/p>
PDB
*
基因组数据库例如?/p>
Ensembl
?/p>
MGD
?/p>
SGD
*
功能数据库例如:
KEGG
?/p>
DIP
?/p>
ASDB
(11)
国际上权威的核酸序列数据库:
欧洲分子生物学实验室?/p>
EMBL
,
美国生物技术信息中心的
GenBank
,
日本遗传研究所?/p>
DDBJ