生物信息学复习资料

第一章

1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图

3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 4.三大核酸序列数据库:GenBank、EMBL、DDBJ

5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。

第二章:

1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段 ③优点1.读取片段长2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多 ④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测

2. 第2代测序技术( 2005) ①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序 ②第一代测序就出现了自动化测序 ③Solexa步骤:(1)制备模板,单链片断固定到载片表面 (2)DNA簇群生成 (3)循环合成反应 +荧光成像 ④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低 缺点:读取片段长度短、准确率下降

3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位 ②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段 ③Scaffold:通过pair ends信息确定出的contig排列,中间有gap

4.测序的应用:①遗传多样性分析 ②甲基化分析 ③研究与蛋白质结合的DNA序列特征 ④转录组测序

5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术 ②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序 ④作用:(1)通过RNA-seq来分析基因表达量 (2)通过RNA-seq分析基因表达网

络和编码基因的变异 (3)通过RNA-seq分析可变剪切 (4)通过RNA-seq分析小RNA 第三章

1.Fasta格式:DNA或Protein序列的最简单展示方式。大于号(>)表示一个新文件的开始,起着分隔符作用

2.GBFF格式:Genebank数据库的基本信息单位,是最广泛使用的生物信息序列格式之一。特征 1.每个条目都是一份纯文本文件。每行左端为:空格或识别字,识别字均为完整英文字,不用缩写2.主体内容可以分成3个部分: ①描述信息:从 LOCUS开始②注释信息:从FEATURES开始③序列信息:从ORIGIN开始3.所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都是在最后一行以//结尾

1.LOCUS:位点名/位置名,有8个字符,通常前面的字母代表特定物种名称2.DEFINITION:说明。包括来源物种、基因/蛋白质名称、序列的完整性3.ACCESSION:检索号4.VERSION:版本号。格式:检索号.版本号。其后的GI号,一条核酸序列对应一个gi号,序列变化,gi号变化,但检索号不变5.KEYWORDS, SOURCE(序列来源的简称)和ORGANISM(序列来源的物种名称和分类学位置) 6.Rerfence:与数据相关的参考文献收录在内 7.Feature:特性表。描述基因或基因的产物以及与序列相关的生物学特性8.Origin:序列信息的起始位置

3.PubMed文献检索:Entrez系统中的数据库之一。检索工具:特定文献检索、临床查询、专题查询 第四章

1.序列比对:①定义:序列比对是寻找两条或多条序列(核酸或蛋白质)之间所有位置上的所有匹配方式,然后筛选出最佳匹配 ②分类:(1)全局比对vs局部比对(决定于有最大相似度的最长子序列) (2)两两比对(待测序列与DNA或蛋白质序列库进行比较,找出与此序列相似的已知序列)vs 多重比对(将待测序列加入到一组与之同源,但来自不同物种的序列进行多序列同时比较,以确定该序列与其他序列的同源性大小)③作用:(1)未知序列与已知序列进行比对,预测其结构和功能 (2) 已知序列与另一种的已知序列之间进行比对,预测两者的进化关系 (3)从方法论上来讲,结构分析,功能分析和相关分析是生物研究中最基本的研究目的

2.可接受的点突变:若两个不同aa背后的DNA水平上的点突变在进化过程中频繁发生,并能被进化接受。通常认为这两个氨基酸是同源或相似的。

3.蛋白质的打分矩阵:①PAM 相同残基之间的相似性分数越高,该aa比较保守,不易突变;不同残基之间的相似性分数越高,它们的相似性越高,容易互变(PAM-1指表示100个残基中发生了1个残基突变) ②blousm(BLOcks SUbstitution Matrix)对亲缘关系较远的蛋白序列比较,不考虑差异巨大的序列。只以相对保守的block为单位进行比对打分。③区别(1)用于产生矩阵的蛋白质

数目不同,BLOSUM比PAM大约多20倍 (2)PAM:家族内的蛋白成员的序列比较;BLOSUM:首先寻找一段保守氨基酸片断,然后以保守氨基酸模式之间的进行序列比较,适用于远缘序列对比 (3)PAM-n中,n 越小,表示氨基酸变异的可能性越大;BLOSUM-n中,n越小,表示氨基酸相似的可能性越小。

4.blast支持的格式:fasta、bare seq、indentifiers 第五、六、七章

1.Accepted Input Formats(可支持的格式):FASTA,Bare seq,Identifiers

2.为什么要做序列比对?(序列比对原因):①未知序列与已知序列进行比对,预测其结构和功能。②已知序列与另一种的已知序列之间进行比对,预测两者的进化关系。③从方法论上来讲,结构分析,功能分析和相关分析是生物研究中最基本的研究目的。

3. NCBI中Basic BLAST工具有那些?:nucleotide blast、protein blast、blastx、tblastn、tblasts。 4.序列比对(两两比对)的算法思想:①输入两条序列②输出:打分最高的,即最佳路线(线路优化)

5.如何使得S1和S2的比对得分最高:首先寻找两条条序列之间所有可能的匹配方式, 逐一打分,然后筛选出最高分,即为最佳比对。

6.动态规划:一个大问题可以分成若干个子问题,寻找每个子问题的最优解,就是最优解。 7.动态规划矩阵(用矩阵来描述序列比对的动态过程):每个元素指长度为i与长度为j的两序列的最佳比对得分F(i,j)。

8. Needleman-Wunsch算法:全局比对(1970):

9.局部比对的重要性:不同物种间的蛋白质序列具有大量的局部保守区域,RNA剪接后产生的转录本与原基因序列是局部匹配

10. Smith-Waterman算法:局部比对(1981):①在初始化阶段,第一行和第一列全填充为0②在填充表格时,如果某个得分为负,那么就用 0 代替③在回溯的时候,从得分最高的单元格开始,回溯到得分为 0 的单元格为止。

11.BLAST/FASTA算法:启发式比对算法:以牺牲灵敏度为代价,提升计算速度;与Smith-Waterman算法不同,不能保证找到最佳匹配。

12.FASTA算法:候选区域中的局部比对:①在矩阵中确定最佳路径可能经过的的区域,基于点阵图用对角线显示两条序列的局部公共片段。②延长热点区域,形成更长的比对区域。③给各自的比对区域赋值,获得得分更高的更长比对,确定候选区域。④在候选区域中,采用smith-waterman算法精确计算最佳比对。由于候选区域所包含的元素数远小于整个矩阵的 元素,因此带来计算速度的极大提升。

13. BLAST算法步骤:①种子序列的寻找:Seeding把长度为n的查询序列划分为不同的种子序列word,最后得到n-w+1个字串.(种子越短,灵敏度越高,计算速度越慢)②种子序列的定位:Seeding Mapping:用这些word来寻找超过某阀值的“近似匹配片段\③种子序列的延伸:Seeding Extending(利用打分矩阵沿左右两个方向延伸hit cluster直到打分低于一个临界值,得到的结果称为高分片段对)。

14.多序列比对(MSA):目的:寻找基因家族中不同序列间的共同特征,能够找到最多共同特征的比对为最优多序列比对。

15.多序列比对的算法复杂度:时间复杂度O(cmn),若m=n, 时间复杂度近似为O (n2),时间复杂度显指数增长。

16.引进近似算法/启发式算法:①首先,选择两条序列进行比对②然后,用特定的方法选择第三条序列,将其加入到前两条序列构成的比对中③重复该过程,知道所有序列加入到比对为止。(多维动态规法MSA,分支定界法DCA,渐进比对法ClustalW) 17.Clustal Omega在线使用,W命令,S图形(分别干嘛)

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4