1. FASTA序列查询及含义
登录NCBI官方网站(http://www.ncbi.nlm.nih.gov/) [National Center for Biotechnology Information]
用NCBI查找到你所需要的序列(核酸、蛋白质),如下图所示
图中有你所搜索的基因的名称、来源物种、长度、发现方式、发现年份、编号和描述
点击FASTA,得到FASTA序列
FASTA格式是指序列文件的第一行是由大于符号打头,之后跟随文字说明,第二行是序列本身,使用标准的核苷酸或蛋白质单字母符号,每行通常为60个字符(不超过80个字符)。 对于核酸序列,除了为大家所熟知的A、G、C、T、U外,R代表C或A(嘌呤);Y代表T或C(嘧啶);K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C(强);W代表A或T(弱)B代表G、T或C;D代表G、A或T;H代表A、C或T;V代表G、C或A;N代表A、G、C、T中任意一种。
2. 编码的氨基酸序列
在核酸序列界面的右下角有Protein选项,点击后即可进入氨基酸序列
得到的序列依然是使用FASTA格式的。
3. 蛋白质功能域
在蛋白质FASTA格式界面点击RUN BLAST,相当于BlASTp,能与蛋白质数据库进行比对,得到其功能域结果