Blast本地化详细流程

Blast 2.4.0+本地化详细流程(基于Windows系统)

1. 程序获得。从NCBI上下载Blast本地化程序,下载地址: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

64×安装版▲

64×解压(绿色)版▲

最好安装或解压到X盘根目录:如X:\\blast,尽量简短,方便后边命令输入。

2. 原始序列获得。方法1:找到转录组测序数据unigene数据库文件:unigene.fasta或unigene.fa,若为unigene.fa则直接改后缀为.fasta即可。找到或修改后将数据库文件移动至Blast本地化程序目录“X:\\blast\\bin”。方法2:从NCBI中的 ftp 库下载所需要库,链ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/,其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。下载的month.nt.gz先用WINRAR解压缩,然后用makeblastdb.exe格式化。方法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。

注释:上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是NCBI 中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。

3. 用文本编辑器(txt文件改名字及后缀)创建一个ncbi.ini文件,文件包含下面内容:[NCBI]Data=\ 先新建TXT文件,然后改属性,将ncbi.ini文件存放到C:\\Windows

4. 将Blast本地化程序目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:

a) 右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量 b) 系统变量中,选择Path,点击“编辑”,在变量值的后面添加Blast本地化

程序所在路径,E:\\blast 点击确定,将安装路径添加到path。

5. 运行MS-DOC。打开DOC窗口(点击开始,选择运行,打开的输入框中输入“CMD”,确定),访问Blast本地化程序所在文件夹,依次输入:(1)X: 回车;(2)cd blast\\bin,回车。

6. 数据初始化。下载得到的数据库为fasta格式,需要经过格式转化才能建立本地数据库。上接第5(2)步,回车后,输入格式化数据库命令:(右键可粘贴)makeblastdb.exe –in xxx.fasta -parse_seqids -hash_index -dbtype prot,回车,在原数据库文件所在文件夹生成一系列文件,Blast本地化体系构建完成。

blast本地化命令▲

blast本地化后生成的文件▲

参数注释:-in参数后面接将要格式化的数据库;-parse_seqids,-hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype后接所格式化的序列的类型,核酸用 nucl,蛋白质用prot。

7. 待比对文件建立。在blast\\bin文件夹创建test.txt文件,将需要blast的序列以fasta格式存于该文件中,文件名自己命名即可,这里以test为例。建立fasta文件注意事项请查看附件1。若有NCBI上下载好的.fasta文件,直接放到blast\\bin文件夹即可。

test.fasta格式文件制作▲

8. 本地Blast比对。上接第6步,在MS-DOS窗口输入比对命令:blastn.exe -task blastn -query test.fasta -db xxx.fasta -out text.txt,稍等片刻,Blast结果即存于系统自动生成的out.txt文件中。blastn.exe -task blastn -query RefGene.txt -db Stellera.Unigene.fasta -out RefGene(test).txt -evalue 1e-5 -num_threads 8

参数注释:blastn.exe为程序执行命令,程序根据自己需要而blastn,blatp,tblastx;-task后面选择你所要用的程序blastn,blatp,tblastx等;-query 后接查询序列的文件名称;-db后接格式化好的数据库名称;-out 后接输出的文件名称及格式。

by malapidan 2016.08.24

附件1 FASTA格式说明

1. 构建FASTA格式文件

所有TEST序列输入必须是FASTA格式,所谓FASTA是指DNA 序列第一行开始于一个标识符:\,紧接着(没有空格)是对该序列的唯一描述(即ID),然后一个空格,接着是对该序列的描述(也可以没有),从第二行开始就是一行行的序列,中间的空格,换行没有影响。为了方便阅读,每一行序列最好不要超过80个字母。 下面是FASTA格式的示例:

>Mus_AQP11 mRNA for aquaporin 11, complete cds

GCGGTGAGGGAGCCATGTCCGCGCTACTGGGACTCCGGCCCGAGGTGCAGGACACCTGCATCTCGCTGGGGCTAATGCTG

CTGTTCGTGCTGTTCGTGGGGCTGGCCCGCGTGATCGCCCGGCAACAGCTACACAGGCCCGTGGTCCACGCCTTCGTCCT

GGAGTTTCTAGCTACCTTCCAGCTCTGCTGCTGCACCCACGAGCTCCAAGTGCTGAGCGAGCAGGACTCTGCGCACCCCA

CCTGGACTCTGACACTGATCTACTTCTTTTCCTTGGTGCATGGCCTGACCCTGGTGGGCACAGCTAGCAACCCGTGCGGC

GTGATGATGCAGATGATTCTGGGGGGTATGTCCCCCGAAATGGGTGCCGTGAGGTTGTTGGCTCAGCTGGTTAGCGCCCT

GTGCAGCAGGTACTGCATAAGCGCCCTGTGGAGCCTGAGTCTGACCAAGTACCATTACGACGAAAGGATCTTAGCTTGCA

GGAATCCCATCCACACCGACATGTCCAAAGCGATCATCATAGAGGCCATCTGCTCCTTTATTTTCCACAGCGCTCTACTG

CACTTCCAGGAGGTCCGAACCAAGCTTCGCATCCACCTGCTGGCTGCACTCATCACCTTTTTGGCCTATGCAGGAGGGAG

CCTCACAGGAGCATTGTTTAACCCAGCGCTGGCACTTTCTCTGCACTTTCCGTGCTTTGACGAACTCTTCTATAAGTTTT

TTGTAGTATACTGGCTTGCTCCTTCTGTAGGTGTGCTGATGATGATCCTCATGTTCAGTTTTTTCCTTCCATGGCTGCAT

AACAATCAAATGACTAATAAAAAAGAGTAACCACTCCCAAAGACTCGAACTAAGTCCCAGGACAGTCAAGCTGGATGCGA

CAATCTGAGCACCCTCCAAACTCTGGACGCCTCCTGCTTCAGCTTTCTCTGTGGAA

> Mus_AQP12 mRNA for aquaporin 12, complete cds

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4