Blast本地化详细流程

Blast 2.4.0+本地化详细流程（基于Windows系统）

1. 程序获得。从NCBI上下载Blast本地化程序，下载地址： ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

64×安装版▲

64×解压（绿色）版▲

最好安装或解压到X盘根目录：如X:\\blast，尽量简短，方便后边命令输入。

2. 原始序列获得。方法1：找到转录组测序数据unigene数据库文件：unigene.fasta或unigene.fa，若为unigene.fa则直接改后缀为.fasta即可。找到或修改后将数据库文件移动至Blast本地化程序目录“X:\\blast\\bin”。方法2：从NCBI中的 ftp 库下载所需要库，链ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/，其中nr.gz为非冗余的数据库，nt.gz为核酸数据库，month.nt.gz为最近一个月的核酸序列数据。下载的month.nt.gz先用WINRAR解压缩，然后用makeblastdb.exe格式化。方法3：利用新版blast自带的update_blastdb.pl进行下载，这需要安装perl程序。

注释：上述三种方法各有优缺点，前两种下载速度较快，但是每次进行检索都需要对数据库进行格式化（转化成二进制数据），第三种方法下载速度较慢，但是NCBI 中已经格式化好的，在进行本地检索时不需再进行格式化，直接用即可。

3. 用文本编辑器（txt文件改名字及后缀）创建一个ncbi.ini文件，文件包含下面内容：[NCBI]Data=\ 先新建TXT文件，然后改属性，将ncbi.ini文件存放到C:\\Windows

4. 将Blast本地化程序目录添加路径中（该步骤非必须，但会给以后的操作带来方便），方法：

a) 右击我的电脑选择属性，选择高级，点击环境变量，设置环境变量 b) 系统变量中，选择Path，点击“编辑”，在变量值的后面添加Blast本地化

程序所在路径，E:\\blast 点击确定，将安装路径添加到path。

5. 运行MS-DOC。打开DOC窗口（点击开始，选择运行，打开的输入框中输入“CMD”，确定），访问Blast本地化程序所在文件夹，依次输入：（1）X: 回车；（2）cd blast\\bin，回车。

6. 数据初始化。下载得到的数据库为fasta格式，需要经过格式转化才能建立本地数据库。上接第5（2）步，回车后，输入格式化数据库命令：（右键可粘贴）makeblastdb.exe –in xxx.fasta -parse_seqids -hash_index -dbtype prot，回车，在原数据库文件所在文件夹生成一系列文件，Blast本地化体系构建完成。

blast本地化命令▲

blast本地化后生成的文件▲

参数注释：-in参数后面接将要格式化的数据库；-parse_seqids，-hash_index两个参数一般都带上，主要是为blastdbcmd取子序列时使用，-dbtype后接所格式化的序列的类型，核酸用 nucl，蛋白质用prot。

7. 待比对文件建立。在blast\\bin文件夹创建test.txt文件，将需要blast的序列以fasta格式存于该文件中，文件名自己命名即可，这里以test为例。建立fasta文件注意事项请查看附件1。若有NCBI上下载好的.fasta文件，直接放到blast\\bin文件夹即可。

test.fasta格式文件制作▲

8. 本地Blast比对。上接第6步，在MS-DOS窗口输入比对命令：blastn.exe -task blastn -query test.fasta -db xxx.fasta -out text.txt，稍等片刻，Blast结果即存于系统自动生成的out.txt文件中。blastn.exe -task blastn -query RefGene.txt -db Stellera.Unigene.fasta -out RefGene(test).txt -evalue 1e-5 -num_threads 8

参数注释：blastn.exe为程序执行命令，程序根据自己需要而blastn，blatp，tblastx；-task后面选择你所要用的程序blastn，blatp，tblastx等；-query 后接查询序列的文件名称；-db后接格式化好的数据库名称；-out 后接输出的文件名称及格式。

by malapidan 2016.08.24

附件1 FASTA格式说明

1. 构建FASTA格式文件

所有TEST序列输入必须是FASTA格式，所谓FASTA是指DNA 序列第一行开始于一个标识符：\，紧接着（没有空格）是对该序列的唯一描述（即ID），然后一个空格，接着是对该序列的描述（也可以没有），从第二行开始就是一行行的序列，中间的空格，换行没有影响。为了方便阅读，每一行序列最好不要超过80个字母。下面是FASTA格式的示例：

>Mus_AQP11 mRNA for aquaporin 11, complete cds

GCGGTGAGGGAGCCATGTCCGCGCTACTGGGACTCCGGCCCGAGGTGCAGGACACCTGCATCTCGCTGGGGCTAATGCTG

CTGTTCGTGCTGTTCGTGGGGCTGGCCCGCGTGATCGCCCGGCAACAGCTACACAGGCCCGTGGTCCACGCCTTCGTCCT

GGAGTTTCTAGCTACCTTCCAGCTCTGCTGCTGCACCCACGAGCTCCAAGTGCTGAGCGAGCAGGACTCTGCGCACCCCA

CCTGGACTCTGACACTGATCTACTTCTTTTCCTTGGTGCATGGCCTGACCCTGGTGGGCACAGCTAGCAACCCGTGCGGC

GTGATGATGCAGATGATTCTGGGGGGTATGTCCCCCGAAATGGGTGCCGTGAGGTTGTTGGCTCAGCTGGTTAGCGCCCT

GTGCAGCAGGTACTGCATAAGCGCCCTGTGGAGCCTGAGTCTGACCAAGTACCATTACGACGAAAGGATCTTAGCTTGCA

GGAATCCCATCCACACCGACATGTCCAAAGCGATCATCATAGAGGCCATCTGCTCCTTTATTTTCCACAGCGCTCTACTG

CACTTCCAGGAGGTCCGAACCAAGCTTCGCATCCACCTGCTGGCTGCACTCATCACCTTTTTGGCCTATGCAGGAGGGAG

CCTCACAGGAGCATTGTTTAACCCAGCGCTGGCACTTTCTCTGCACTTTCCGTGCTTTGACGAACTCTTCTATAAGTTTT

TTGTAGTATACTGGCTTGCTCCTTCTGTAGGTGTGCTGATGATGATCCTCATGTTCAGTTTTTTCCTTCCATGGCTGCAT

AACAATCAAATGACTAATAAAAAAGAGTAACCACTCCCAAAGACTCGAACTAAGTCCCAGGACAGTCAAGCTGGATGCGA

CAATCTGAGCACCCTCCAAACTCTGGACGCCTCCTGCTTCAGCTTTCTCTGTGGAA

> Mus_AQP12 mRNA for aquaporin 12, complete cds

Blast本地化详细流程

下载：Blast本地化详细流程.doc

最近浏览

最新搜索

站内搜索