北京大学生科院/CLS生物信息平台 RNA-Seq测序数据分析服务流程 (试运行 2015.3
平台联系人:李程(lch3000@gmail.com 文档撰写:张超 Table of Contents 1. 测序质量评估 (3 1.1 测序数据过滤 (3 1.2 质量值分布 (3 1.3 GC含量分布 (4 2. 参考序列比对 (4 3. 基因表达水平 (6 3.1 基因表达水平定量 (6 3.2 基因表达水平分步 (6 3.3 生物学重复相关性分析 (6 3.4 样本间层次聚类及PCA分析 (7 4. 差异基因分析 (7 4.1 基因表达标准化 (7
4.2 差异基因列表 (8 4.3 差异基因可视化 (8 4.4 差异基因聚类 (9 5. 差异表达基因功能分析 (10 5.1 GO富集分析 (10 5.2 信号通路富集分析 (10 5.3 癌基因功能注释 (11 6.基因结构差异分析 (11 6.1 可变剪切分析 (11 7. SNP分析 (12 7.1 SNP检测 (12 7.2 SNP 筛选 (12 7.3 GO/KEGG富集 (12 1. 测序质量评估
通过测序的数据进行进行质控,保证数据质量适合下游分析。这里我们使用fastqc和RNA-SeQC来对数据进行质量评定。
1.1 测序数据过滤
测序得到的原始下机数据往往有许多问题,不能直接使用,通常会经过以下过滤,尽量保证测序数据的质量。
a.去除带测序接头的测序序列(reads; b.去除低质量的reads 1.2 质量值分布
按照现有的测序技术(illumina平台单碱基的错误率应控制在1%以下,即质量值在20以上。
横坐标为reads的碱基位置,纵坐标为单碱基质量值 质量值与错误率的关系:Q
=-10log10(e;其中Q phred为测序碱基质量值,e为测 phred 序错误率。