蛋白质组与转录组比较关联分析方案
一.概述 1.研究背景
生命体是一个多层次,多功能的复杂结构体系,高通量技术的发展积累了大量的组学数据,这使得由精细的分解研究转向系统的整体研究成为可能,整合多组学数据能够实现对生物系统的全面了解。当部分层面上的研究都逐渐走向完善的时候,从部分到整体就是一种必然发展趋势。
相关研究表明,基因表达不仅仅是从转录组到蛋白质组的单向流动,而是两者的相互连接。对这种功能调控的了解通常只限于特殊的信号途径,要了解转录组和蛋白质组之间的相互调控作用,就需要对RNA和蛋白质的表达进行同步监测。
正如RNA可作为部分生物学功能的酶反应的效益物一样,蛋白质也是大多数生物学功能的效益物。因此,蛋白质水平广泛的基因组分析是基因表达更直接的反映。质谱技术的发展,使得定量的蛋白组学研究成为可能。然而,当细胞适应了转录水平、转录后(如mRNA的剪接)、翻译后(蛋白降解和输出)的精细调控机制后,转录物和蛋白质丰度测量结果可能会不一致。因此,定量的转录物和蛋白质丰度测量可作为相互的标准,为高通量分析得出的基因表达数据做出合理的解释。正如蛋白质和RNA之间类似点可以增加我们对新的生物标记的信任度一样,差异也能暗示我们“其他的转录后调控结合点可作为重要的调控研究靶点”。
在蛋白组学分析过程中,一些研究选择了双向凝胶电泳(2一DE)分析蛋白质混合物。要么是对不同的凝胶染色,要么是让不同的细胞与不同的染料相结合,通过斑点染色亮度可以看到蛋白质的亮度。随后用质谱仪对分离出的定量凝较斑点进行鉴定,与转录组学分析不同的是,双向凝胶电泳分析的鉴定结果与定量分析是散耦合(de一coupled)。
液相色谱法(LC)是作为一种替代2一DE的蛋白质分析方法而出现的。LC一MS分析是典型的“自下而上(Bottom一up)”分析方法,通常要用特异的蛋白酶(如胰蛋白酶)将蛋白质消化为肽段。与2一DE不同,LC一MS对肽的定量和鉴定是同时进行的,可以选择定量的MS峰(m/z)用于鉴定,通过肽段的信息推测对应蛋白质的定量信息。
虽然采用的技术不同,迄今为止公开发表的整合分析文章中,都指出了转录组学和蛋白组学的重要性。转录组学或蛋白组学通常只考虑调节系统和分解作用平衡态的净效应,实际上,出现的不一致性只是合成与降解两种替换过程中的一种反映。科学家可能对变化过程中的机制更感兴趣。
正如中心法则预测的那样,在转录物和蛋白质水平,如果只能通过严格的转录调控去控制蛋白质的合成,细胞是不太可能选择精细调节机制的。当点对点进行比较时,蛋白质和转录物之间的一致性通常很弱,这些观察说明了“从个体基
因座的局部分析扩展到功能途径系统分析”为重要性。
转录组学和蛋白组学都是研究系统的生理化学状态的有用工具。当然,没有一种工具可以为系统提供完全的覆盖范围及相应的精确度。问题的核心,不是用工具找出mRNA和蛋白质之间一对一的相互关系,而是要用它们区别出真阳性和假阳性,即区别出真正的mRNA-蛋白质一致性或者是不一致性。没有这些整体分析,就无法观察到真正的mRNA-蛋白质不一致性,并且这些不一致性要比一致性更吸引科学家,因为它们透露出的更多的转录后干涉情况。
更重要的是,在转录物和蛋白质水平上的整合表达分析,能对整体的基因-基因相互作用网进行描述,提供单个基因活性中的功能内容,这些内容会影响到生物学功能。新的分析软件工具将帮助研究者储存在蛋白组学和转录组学中新出现的高通量技术的全部力量。
二.蛋白质组与转录组比较关联分析研究 1.蛋白质组与转录组比较关联分析的优势
虽然转录组和蛋白质组在实验方法上差异很大,但由于这两种方法的首要目的都是获得基因的表达情况,其间存在着某种共同之处。从生物学角度上看,mRNA水平代表了基因表达的中间状态,能代表着潜在的蛋白质表达情况。转录组能在较低消耗下实现较高的通量,并能在某种程度上捉供较详细的信息。然而蛋白质是直接的功能执行体,因而,对蛋白质表达水平的度量有着不可取代的优势。
最近的文献也明确报道了转录组和蛋白质组的部分不相关或负相关的结果,并且用统计方法证明了这种显著差异很大程度上是由生物学因素造成的,而不仅仅是噪音,说明了基因表达情况不能单纯用转录组的方法解决。
由于这两种不同的表达谱研究手段的不完全性和互补性,现有的研究倾向于综合转录组和蛋白质组的研究,目的在于:
1) 获得一个表达谱的“全景图”,并实现其问的互补和整合,对生物体特定状态下的基因和蛋白质表达水平进行全方位分析;
2) 通过全局上获得对差异表达谱的广泛理解,挖掘受转录后调控的关键蛋白/基因,寻找验证某些重要的生物学调控,这种研究方式在基础研究上己经有不少报道。
3) 对于一些蛋白数据库少的物种,通过转录组数据构建蛋白质搜索库,大幅度提高蛋白鉴定数,这同时也是本方案的一大亮点。
由于转录组和蛋白质组的比较关联研究能揭示基因表达的转录后调控状态,因此,转录组和蛋白质组之间的关系很可能将是未来的系统生物学研究中不可忽略的一部分。
2.研究目标分析 有意向采用多组学分析策略来研究一些动植物的重要生物过程的调控机制; 己有转录组数据,希望通过蛋白质组学技术从另一层面去验证所获得结果(如mRNA可变剪接在转录和蛋白水平的相互验证):同时,对所获得的两组学
数据进行比较关联分析,以期更加深入的探讨某种重要的生命调控机理。 总的来讲,本方案的目标客户为已在华大做过转录组,希望通过进一步深入研究,发更高点数文章的客户:或者是将要做蛋白组/转录组的潜在客户。 三.研究方案 1.材料
根据研究目的,选取不同处理组动植物样本(某种生物或非生物压力胁迫诱导、野生型与突变体),分别提取相同组织样本中的总RNA和总蛋白,即转录组与蛋白质组分析所用的样本尽量保持一致,以最大限度的减小对后续基因与蛋白差异表达比较分析中所产生的误差。
2.蛋白质与转录组比较关联分析的整体方案
分别进行转录组和蛋白质组两组学水平分析,经相应的生物信息学分析之后,整合两组学的信息分析数据进行比较关联研究,具体的方案流程如图3-l所示。
2.1转录组测序分析 1) 技术路线
采用Illumina HiseqTM2000进行转录组分析(图3-2):分别取对照组和处理组样本(不同时期、不同组织样本)进行RNA提取,将提取的总RNA分离纯化出mRNA,随机打断并反转录成cDNA,加接头纯化后上机测序,过滤接头序列、去污染。每个样本的测序量为4Gb的数据。
2) 生物信息分析内容
数据处理
对原始数据进行去除接头、污染序列及低质量reads的处理。 标准信息分析(无参考序列)
A. 数据产出统计及测序数据的成分和质量评估
B. 组装结果分析(contig长度分布、Unigene长度分布) C. Unigene功能注释 D. Unigene的GO分类 E. Unigene代谢通路分析 F. 预测编码蛋白框(CDS)
G. Unigene表达差异分析(两个或两个以上样品)
H. Unigene在样品间的差异GO分类(需两个或两个以上样品)和Pathway富集性分析
标准信息分析(需提供参考基因序列、参考基因组序列及基因注释结果) a) 测序评估(比对统计、测序随机性评估、Reads在基因组上的分布) b) 基因表达注释(基因覆盖度、覆盖深度分布等) c) 基因差异表达分析(两个或两个以上样品) d) 对基因结构进行优化(仅针对真核生物) e) 鉴定基因的可变剪接(仅针对真核生物)
f) 预测新转录本
g) SNP(single nucleotide polymorphism:单核昔酸多态性)分析(仅针对真核生物)
2.2 定量蛋白质组分析(iTRAQ) (1) 技术路线