MEGA计算序列间遗传距离

小,但分辨率较低,不能满足发表论文的需要。要编辑坐标轴则点击“Graphic→……”菜单进行选择。若要将分析结果以遗传距离的形式保存,则在“Graph Tool”窗口中点击“Edit→Copy data to EXCEL”,然后创建一个“*.xls”文档,将数据粘贴到新建的“*.xls”文档中即可。使用DAMBE进行碱基替换饱和性分析的优点是可以直接输出图形文件,对大型数据矩阵特别方便,缺点是以EXCEL格式输出遗传距离值时没有同时输出物种对名称;若要将遗传距离与物种对对应起来,需要使用其它命令或方法。

DNA序列组成及变异分析

* 这些分析通常可以在MEGA软件中进行,也可以在其它相关软件中实现,如DAMBE等。

用MEGA进行数据分析时,输入的数据必须是“*.meg”格式文件,否则不能识别,所以在分析数据前要先将其它格式文件转换成“*.meg”格式文件。MEGA可以将多种格式的序列文件(*.fasta、*.aln、*.nexus、*.phylip、*.phylip2、*.gcg、*.pir、*.nbrf、*.msf、*.ig和*.xml格式)转换成“*.meg”格式,不论其是否已经比对好。所以,用MEGA转换序列数据格式之前要先将序列比对好并删除引物序列。许多人通常喜欢将比对整理好的序列保存为“*.fasta”格式,因为这种格式更加通用,而且其它格式的文件均可由此格式通过一定的软件或批处理文件转换生成。

* MEGA(Molecular Evolutionary Genetics Analysis; http://www.megasoftware.net/)是一个不

断更新的软件,如果启动该软件时出现“The current test version of MEGA may be out of date (release #4104). We recommend that you obtain an updated version from http://www.megasoftware.net or http://megasoftware.net”, 可考虑重新下载新版本安装,也可点击“OK”后忽略。

一、转换文件格式

1. 运行MEGA 4.1。

2. 导入数据。点击MEGA 4.1主窗口左上角工具栏中的“Text Editor and Format Convertor”图标

(或点击“File→Text Editor...F3”),在弹出来的“Text File Editor and Format

Convertor”窗口中点击“File→Open”或直接点击窗口左上角工具栏中的“Open a file (Ctrl+0)”图标

,选择并打开需要转换的序列文件。

* “Text Editor and Format Convertor”窗口最小化隐藏后可点击MEGA主窗口中的“Text Editor and Format Convertor”图标

和随之显示在主窗口左下角的该窗口的最小化图标

来恢复,也可点击主窗口中的“File→Text Editor…… F3”

菜单命令,然后点击显示在主窗口左下角的该窗口的最小化图标来恢复。在用MEGA的数据处理窗口“View Sequence Data”

进行统计分析时,若选择了“Statistic→Display Results in Text Editor”设置,即在“Text Editor and Format Convertor”窗口中显示结果,窗口最小化隐藏后又需要重新使用时也是用同样的方法来激活恢复。

Text Editor and Format Convertor图标

3. 点击“Text File Editor and Format Convertor”窗口左上角工具栏中的“Convert to MEGA format (Contrl+M)”图标

或使用菜单命令“Utilities→Convert to MEGA format

Contrl+M”,在弹出来的“Select File and Format”小窗口中点击“OK”即可完成文件转换。

* 一步转换的方法是:在MEGA 4.1主窗口中点击“File→Convert To MEGA format”,在弹出来的“Select File and Format”小窗口中点击“Data file to convert”选项栏右侧的“open”图标

,然后在弹出来的“Choose a File to Convert”窗口中选择需要转换的序列文件,

,再点击“Select File and Format”小窗口中的“OK”按

点击“打开”按钮钮即完成文件格式转化。

4. 检查文件内容,删除多余的符号如“#”和“*”等(这些多余信息通常出现在文件末尾,若不检查删除,MEGA可能在导入文件时无法识别,从而出错),将文件保存到指定的文件夹,关闭文件转化窗口。另外,序列名称或编号中也不能出现“?、-、*和#”等符号,否则可能导致出现“序列长度不相等”之类的错误警报。

* 若在转化文件格式时确实忘记了检查删除多余信息而导致分析数据时打不开“*.meg”格式的文件,可用下述方法重新检查:在主窗口中点击“File→Text Editor… F3”打开“Text File Editor and Format Convertor”窗口,点击工具栏中的快捷图标

(Open a file

(Ctrl+0))打开序列文件,检查数据并删除多余的干扰信息,保存并退出该窗口即可重新导入数据进行后面的分析。

* 如果要省去文件格式转换的麻烦,在序列数目较少时可直接将“*.fasta”格式文件导入MEGA进行比对,然后以“*.meg”格式保存即可;具体操作见“用MEGA软件比对序列”。因这样做并没有使整个操作步骤简化多少,还要重新比对序列(而大多数人更习惯在Clastal软件中比对序列),所以通常没有必要采用这种方法来转换文件格式。

二、DNA序列的碱基组成及变异分析

1. 导入数据

在MEGA主窗口中点击“File→Open Data F5”,打开待分析序列的“.meg”文件;在弹出来的“Input Data”小窗口中选择“Data type”,如“Nucleotide Sequence”、“Protein Sequences”、“Pairwise Distance”等,点击“OK”按钮;在弹出来的(popped up)“Confirm”小窗口中出现提问“Protein-coding nucleotide sequence data?”,若为蛋白质编码序列则点击“Yes”,若为非蛋白质编码序列则点击“No”按钮;在弹出来的“Select Genetic Code”小窗口中选择“Invertebrate Mitochondial”,点击“OK”按钮,即出现“View Sequence Data”窗口(数据处理窗口);该窗口最小化后可点击MEGA主窗口左上角工具栏中的“Explore active data(F4)”图标

来恢复,也可点击主窗口上方主菜单中的“Data→Data explorer

F4”来直接恢复。

* 除了上述方法(包括使用快捷键F5)外,还可点击主窗口中的链接

来打开数据文件,其它操作相同。

2. 计算保守位点(conserved sites)、变异位点(variable sites)、简约

信息位点(parsimony-informative sites)。

这些统计数值可以通过点击数据处理窗口工具栏中的相应图标来显示在窗口的最下方,也可以通过点击“Highlignt→……”菜单命令来显示,将显示结果记录下来备用即可。例如,将鼠标选中某一个碱基,在窗口的左下角就会显示该碱基所在序列的长度及该碱基在序列中的位置(1/465表示该序列长为465pb,选中的碱基是该序列的第一位碱基;Conserved: 278/465表示分析的序列长465bp,保守位点278个);其它统计类推。

* 工具栏中各快捷图标的含义分别为: 保守位点Conserved sites—C,变异位点variable sites—V,简约信息位点parsimony-informative sites—Pi,自裔位点Singleton site—S,0-fold Degenerate sites—0, 2-fold Degenerate sites—2,4-fold Degenerate sites—4。将鼠标移到相应的快捷图标上时,会短暂显示“Mark conserved sites”、……等字样,由此可知该图标的具体功能。

* Degeneracy (密码子的简并性)

0-fold degenerate sites are those at which all changes are nonsynonymous. (非简并性位点) 2-fold degenerate sites are those at which one out of three changes is synonymous. (All sites at

which two out of three changes are synonymous also are included in this category.) (二重简并位点)

4-fold degenerate sites are those at which all changes are synonymous. (四重简并位点)

* Singleton Sites(自裔位点)

A singleton site contains at least two types of nucleotides (or amino acids) with, at most, one

occurring multiple times. MEGA identifies a site as a singleton site if at least three sequences

联系客服:779662525#qq.com(#替换为@) 苏ICP备20003344号-4