Arlequin操作说明 下载本文

ARLEQUIN 使用说明

引 言

Arlequin是一款优秀的人类遗传学数据分析软件,其名字来源于法语“Arlecchino”,是一个十七世纪意大利著名喜剧人物的名字。这个喜剧人物具有多个面目,可以根据需要,多个角色之间轻而易举的相互转变。Arlequin软件包如此取名,大概是为了说明此款软件能够满足遗传分析方面的需求。Arlequin软件包提供了许多方法和统计学检验来从遗传学和人口统计学数据(如大量的分子序列数据和传统的等位基因频率等)中挖掘信息。Arlequin 软件有着友好的Java图形操作界面,便于使用者操作。

Arlequin软件包由Stefan Schneider、David Roessil和Laurent Excoffier三人完成。Arlequin软件包下载和升级的网址为:http://anthro.unige.ch/arlequin。下载后的Arlequin软件包基本由Arlequin20_zip.exe和jre117-win32.exe组成,在运行Arlequin程序之前,需要先安装jre117-win32.exe。Arlequin20_zip.exe是个自解压的程序,点击此程序将文件释放到所选择的目录,就可以运行了。在上述网址还提供了一个升级包arlpatch2001.zip,修正了原软件里边的一些bug,并提高了某些计算程序的精确性;下载后解压,直接运行即可。

Arlquin 功能概述:

? Molecular diversity (分子多态性) ? Mismatch distribution (错配分布)

? Haplotype frequency estimation (单倍型频率估计) ? Linkage disequilibrium (连锁不平衡):检测不同位点上等位基因的非随机关联 ? Hardy-Weinberg equilibrium (哈温—伯格平衡) ? Tajima`s neutrality test (Tajima中性检验) ? Fu`s neutrality test (Fu中性检验)

? Ewens-watterson neutrality test ( Ewens-watterson中性检验)

? 以上三个中性检验都是基于无限位点模型,适用于DNA sequence 和 RFLP单倍型。 ? Chakraborty`s amalgamation test (Chakraborty`s 融合检验,检测人群的均一性或同质性,和中性选择等)

? Minimu Spanning Network (MSN,最小扩张树或称之为最小支撑树,基于分子差异) ? AMOVA (分子差异度分析,用以评测人群的遗传结构) ? Pairwise genetic distances (遗传距离的估计)

? Exact test of population differentiation (检测随机交配群体单倍型的非随机分布)

? Assignment test of genotype (通过估计等位基因频率将单个基因型分配到特定的人群中)

Arlequin软件包功能强大,以上列出了本软件包一些基本的功能,下文将对这些功能进行详细的阐释和实例讲解。

Arlequin 输入数据的格式

Arlequin 软件包大致能接受以下五种数据格式:DNA sequences、RFLP data、Microsatellite data、Standard data、Allele frequency data。这些数据可以使单倍型(haplotypic)数据格式,也可以是基因型(genotypic)数据格式。对于RFLP data类型数据,“1”表示存在限制性位点,“0”表示不存在限制性位点,“-”表示限制性位点缺失。对于DNA sequences类型数据,“-”代表一个缺失的核苷酸,“?”代表一个未知核苷酸,R表示A/G(purine),Y表示C/T(pyrimidine),M表示A/C,W表示A/T,S表示C/G,K表示G/T,B表示C/G/T,D表示A/G/T,H表示A/C/T,V表示A/C/G,N表示A/C/G/T。

Arlequin 软件包输入文件的扩展名应该为*.arp,配置文件的扩展名为*.ars。在Arlequin 软件包输

入文件中,#后可以输入任何字符,直至此行结尾。

1、Alequin输入文件的格式- profile

在一个Alequin输入文件的最开始是 Profile 部分 [profile] Title=“”

当前分析数据的名称或标题(双引号内可以为任何字符串)如:Title=“ancient mtdna data of QiDan” NbSamples=

(指所分析数据中人群的个数,可以是1-1000之间的任何整数) 如:NbSamples= 6。 DataType=

此部分用以说明所分析数据的格式。可以输入的字符有:DNA,RFLP,MICROSAT,STANDARD,FREQUENCY。例如:DataType=DNA

GenotypicData=

此参数用来说明所分析的数据是单倍型数据还是基因型数据。可以输入的字符为:0(haplotypic data)和1(genotypic data )例如:GenotypicData= 0

LocusSeparator=

此参数用以说明在不同的位点用何字符来分离等位基因。可使用的字符有:WHITESPACE,TAB,NONE,或除#、?、-,以外的任何字符。例如:LocusSeparator= TAB。

缺省值为:WHITESPACE GameticPhase=

此参数用以说明配子片段的基因型是否已知。此处可使用的字符有:0(gametic phase not known)和1(known gametic phase)例如:GameticPhase= 1。

缺省值为:1 RecessiveData=

此参数用以说明所研究基因型数据是否为隐性等位基因。此处可使用的字符有:0(co-dominant data 共显性)和1(recessive data隐性数据)。例如: RecessiveData= 1。

缺省值为:0 MissData=

用来确定用什么字符来代表缺失的位点数据,这个字符要输入在“”或‘’之间。例如:MissData=“§”。

缺省值为:MissData=“?”。 Frequency=

当单倍型或表现型的频率用绝对或相对的数值来表示时,用到此项。可填的参数有:ABS(绝对数值)、REL(相对数值)。绝对数值可以通过对样本数目的相对频率计算而得到。例如:Frequency=ABS。

缺省值:ABS CompDistMatrix=

此参数用来说明距离矩阵数据是否来自原始的数据,还是直接就是数字的形式。可采用的字符有:0(利用亚矩阵数据)和1(通过单倍型信息计算距离矩阵)。例如:CompDistMatrix= 1。

缺省值:0

FrequencyThreshold=

此参数用来界定输出文件中,单倍型频率数据的范围。可采用的数值有:从0.01到0.0000001的有理数例如:FrequencyThreshold=0.01。

缺省值:0.00001 EpsilonValue=

此参数代表利用基因型数据用来估计单倍型频率和连锁不平衡的运算法则的收敛标准。此处可以用的数值为:10ˉ7到10 ˉ 12例如:EpsilonValue= 10- 10

缺省值: 10-7

2、Alequin输入文件的格式-Data section Data部分的数据格式要求如下。

[Data]

Haplotype list(单倍型数据),如下图所示:

Fig

Distance matrix (距离矩阵数据),如下图所示:

Fig

对于距离矩阵数据,是一个下三角的矩阵,而且对角线上所有的值为0。由距离矩阵可以计算遗传结构。在AMOVA分析中,矩阵的元素应该是Euclidean distances 正方形的形式。另外,单倍型的名字应该跟距离矩阵行和列的顺序保持一致。如果单倍型的名字在输入文件的其它位置也曾出现,则二者应该保持一致。

3、Alequin输入文件的格式- Samples

[Data]后的[[samples]]的格式,如下所示: SampleName=

此参数用来说明所分析样品的名字。例如: SampleName= “mtdna of XinJiang Han people” 注意问题:不同的样本,名字应该是不一样的。 SampleSize=

说明样本数目的大小,可以输入任何正整数。例如: SampleSize=119 注意事项:后边所列出的样本数目必须与此数保持一致,否则程序将不能正常运行。将会在log file中产生一个警告信息。对于频率数据,当相对频率确定时,此项参数可以用来把相对信息频率为绝对频率。

SampleData=

此参数后边可以直接输入所分析的数据,须在大括号内。 例如:

Fig

4、Alequin输入文件的格式- Genetic Structure StructureName=

说明结构的名称,双引号内可以为任何字符。

例如:StructureName= “structure of the samples from Mongolia” 注意:这个名字与输出结果中的名字是相对应的。 NbGroups=

说明基因结构中群体的数目,任何正整数即可。 例如: NbGroups=12

注意:如果这个数值不正确,则程序不会运行或出现问题。 IndividualLevel=

说明分析多样性时,是否在个体水平上。可采用的数值为:0或1。 例如: IndividualLevel= 0

注意:缺省值为0。1仅适用于基因型数据 Group=

进行分组。在此项中,“#”不能出现在括号中,否则会导致错误的信息。关于组的注释信息,应该在确定分组之前已经说明。对于分组,示例如下:

Fig

5、Alequin输入文件的格式-Mantel test settings

这个选项可以用来计算矩阵间的相关性,如Ymatrix和X1之间,Ymatrix、X1 和X2 之间。 MatrixSize=

用来确定用于Mantel test的矩阵的大小。所有的正整数均可。 例如:MatrixSize= 5 MatrixNumber=

用来计算相关性的矩阵的数目。 例如:MatreixNumber= 2 YMatrix=

作为遗传距离的矩阵。例如,如果用“fst”来计算矩阵之间的相关性,那么每个矩阵的遗传配对差异Fst将被用来计算。其对应关系如下图所示:

Fig

YMatrixLabels=

用来确定计算所使用的Ymatrix。把选定的距离矩阵的名字,用双引号引起来,置于一个大括号中。如下图所示:

Fig

DistMatMantel=

利用YMatrix计算的相关性矩阵的值。形式如下图所示:

Fig

UsedYMatrixLabels=

属于此组的矩阵的名字集合,用大括号括起来。形式如下图所示:

Fig

关于Arlequin输入文件的实例,如下图所示: