Arlequin使用说明.docx
《Arlequin使用说明.docx》由会员分享,可在线阅读,更多相关《Arlequin使用说明.docx(35页珍藏版)》请在冰点文库上搜索。
Arlequin使用说明
ARLEQUIN使用说明
引言
Arlequin是一款优秀的人类遗传学数据分析软件,其名字来源于法语“Arlecchino”,是一个十七世纪意大利著名喜剧人物的名字。
这个喜剧人物具有多个面目,可以根据需要,多个角色之间轻而易举的相互转变。
Arlequin软件包如此取名,大概是为了说明此款软件能够满足遗传分析方面的需求。
Arlequin软件包提供了许多方法和统计学检验来从遗传学和人口统计学数据(如大量的分子序列数据和传统的等位基因频率等)中挖掘信息。
Arlequin软件有着友好的Java图形操作界面,便于使用者操作。
Arlequin软件包由StefanSchneider、DavidRoessil和LaurentExcoffier三人完成。
Arlequin软件包下载和升级的网址为:
http:
//anthro.unige.ch/arlequin。
下载后的Arlequin软件包基本由Arlequin20_zip.exe和jre117-win32.exe组成,在运行Arlequin程序之前,需要先安装jre117-win32.exe。
Arlequin20_zip.exe是个自解压的程序,点击此程序将文件释放到所选择的目录,就可以运行了。
在上述网址还提供了一个升级包arlpatch2001.zip,修正了原软件里边的一些bug,并提高了某些计算程序的精确性;下载后解压,直接运行即可。
Arlquin功能概述:
■Moleculardiversity(分子多态性)
■Mismatchdistribution(错配分布)
■Haplotypefrequencyestimation(单倍型频率估计)
■Linkagedisequilibrium(连锁不平衡):
检测不同位点上等位基因的非随机关联
■Hardy-Weinbergequilibrium(哈温—伯格平衡)
■Tajima`sneutralitytest(Tajima中性检验)
■Fu`sneutralitytest(Fu中性检验)
■Ewens-wattersonneutralitytest(Ewens-watterson中性检验)
■以上三个中性检验都是基于无限位点模型,适用于DNAsequence和RFLP单倍型。
■Chakraborty`samalgamationtest(Chakraborty`s融合检验,检测人群的均一性或同质性,和中性选择等)
■MinimuSpanningNetwork(MSN,最小扩张树或称之为最小支撑树,基于分子差异)
■AMOVA(分子差异度分析,用以评测人群的遗传结构)
■Pairwisegeneticdistances(遗传距离的估计)
■Exacttestofpopulationdifferentiation(检测随机交配群体单倍型的非随机分布)
■Assignmenttestofgenotype(通过估计等位基因频率将单个基因型分配到特定的人群中)
Arlequin软件包功能强大,以上列出了本软件包一些基本的功能,下文将对这些功能进行详细的阐释和实例讲解。
Arlequin输入数据的格式
Arlequin软件包大致能接受以下五种数据格式:
DNAsequences、RFLPdata、Microsatellitedata、Standarddata、Allelefrequencydata。
这些数据可以使单倍型(haplotypic)数据格式,也可以是基因型(genotypic)数据格式。
对于RFLPdata类型数据,“1”表示存在限制性位点,“0”表示不存在限制性位点,“-”表示限制性位点缺失。
对于DNAsequences类型数据,“-”代表一个缺失的核苷酸,“?
”代表一个未知核苷酸,R表示A/G(purine),Y表示C/T(pyrimidine),M表示A/C,W表示A/T,S表示C/G,K表示G/T,B表示C/G/T,D表示A/G/T,H表示A/C/T,V表示A/C/G,N表示A/C/G/T。
Arlequin软件包输入文件的扩展名应该为*.arp,配置文件的扩展名为*.ars。
在Arlequin软件包输入文件中,#后可以输入任何字符,直至此行结尾。
1、Alequin输入文件的格式-profile
在一个Alequin输入文件的最开始是Profile部分
[profile]
Title=“”
当前分析数据的名称或标题(双引号内可以为任何字符串)如:
Title=“ancientmtdnadataofQiDan”
NbSamples=
(指所分析数据中人群的个数,可以是1-1000之间的任何整数)如:
NbSamples=6。
DataType=
此部分用以说明所分析数据的格式。
可以输入的字符有:
DNA,RFLP,MICROSAT,STANDARD,FREQUENCY。
例如:
DataType=DNA
GenotypicData=
此参数用来说明所分析的数据是单倍型数据还是基因型数据。
可以输入的字符为:
0(haplotypicdata)和1(genotypicdata)例如:
GenotypicData=0
LocusSeparator=
此参数用以说明在不同的位点用何字符来分离等位基因。
可使用的字符有:
WHITESPACE,TAB,NONE,或除#、?
、-,以外的任何字符。
例如:
LocusSeparator=TAB。
缺省值为:
WHITESPACE
GameticPhase=
此参数用以说明配子片段的基因型是否已知。
此处可使用的字符有:
0(gameticphasenotknown)和1(knowngameticphase)例如:
GameticPhase=1。
缺省值为:
1
RecessiveData=
此参数用以说明所研究基因型数据是否为隐性等位基因。
此处可使用的字符有:
0(co-dominantdata共显性)和1(recessivedata隐性数据)。
例如:
RecessiveData=1。
缺省值为:
0
MissData=
用来确定用什么字符来代表缺失的位点数据,这个字符要输入在“”或‘’之间。
例如:
MissData=“§”。
缺省值为:
MissData=“?
”。
Frequency=
当单倍型或表现型的频率用绝对或相对的数值来表示时,用到此项。
可填的参数有:
ABS(绝对数值)、REL(相对数值)。
绝对数值可以通过对样本数目的相对频率计算而得到。
例如:
Frequency=ABS。
缺省值:
ABS
CompDistMatrix=
此参数用来说明距离矩阵数据是否来自原始的数据,还是直接就是数字的形式。
可采用的字符有:
0(利用亚矩阵数据)和1(通过单倍型信息计算距离矩阵)。
例如:
CompDistMatrix=1。
缺省值:
0
FrequencyThreshold=
此参数用来界定输出文件中,单倍型频率数据的范围。
可采用的数值有:
从0.01到0.0000001的有理数例如:
FrequencyThreshold=0.01。
缺省值:
0.00001
EpsilonValue=
此参数代表利用基因型数据用来估计单倍型频率和连锁不平衡的运算法则的收敛标准。
此处可以用的数值为:
10ˉ7到10ˉ12例如:
EpsilonValue=10-10
缺省值:
10-7
2、Alequin输入文件的格式-Datasection
Data部分的数据格式要求如下。
[Data]
Haplotypelist(单倍型数据),如下图所示:
Fig
Distancematrix(距离矩阵数据),如下图所示:
Fig
对于距离矩阵数据,是一个下三角的矩阵,而且对角线上所有的值为0。
由距离矩阵可以计算遗传结构。
在AMOVA分析中,矩阵的元素应该是Euclideandistances正方形的形式。
另外,单倍型的名字应该跟距离矩阵行和列的顺序保持一致。
如果单倍型的名字在输入文件的其它位置也曾出现,则二者应该保持一致。
3、Alequin输入文件的格式-Samples
[Data]后的[[samples]]的格式,如下所示:
SampleName=
此参数用来说明所分析样品的名字。
例如:
SampleName=“mtdnaofXinJiangHanpeople”
注意问题:
不同的样本,名字应该是不一样的。
SampleSize=
说明样本数目的大小,可以输入任何正整数。
例如:
SampleSize=119
注意事项:
后边所列出的样本数目必须与此数保持一致,否则程序将不能正常运行。
将会在logfile中产生一个警告信息。
对于频率数据,当相对频率确定时,此项参数可以用来把相对信息频率为绝对频率。
SampleData=
此参数后边可以直接输入所分析的数据,须在大括号内。
例如:
Fig
4、Alequin输入文件的格式-GeneticStructure
StructureName=
说明结构的名称,双引号内可以为任何字符。
例如:
StructureName=“structureofthesamplesfromMongolia”
注意:
这个名字与输出结果中的名字是相对应的。
NbGroups=
说明基因结构中群体的数目,任何正整数即可。
例如:
NbGroups=12
注意:
如果这个数值不正确,则程序不会运行或出现问题。
IndividualLevel=
说明分析多样性时,是否在个体水平上。
可采用的数值为:
0或1。
例如:
IndividualLevel=0
注意:
缺省值为0。
1仅适用于基因型数据
Group=
进行分组。
在此项中,“#”不能出现在括号中,否则会导致错误的信息。
关于组的注释信息,应该在确定分组之前已经说明。
对于分组,示例如下:
Fig
5、Alequin输入文件的格式-Manteltestsettings
这个选项可以用来计算矩阵间的相关性,如Ymatrix和X1之间,Ymatrix、X1和X2之间。
MatrixSize=
用来确定用于Manteltest的矩阵的大小。
所有的正整数均可。
例如:
MatrixSize=5
MatrixNumber=
用来计算相关性的矩阵的数目。
例如:
MatreixNumber=2
YMatrix=
作为遗传距离的矩阵。
例如,如果用“fst”来计算矩阵之间的相关性,那么每个矩阵的遗传配对差异Fst将被用来计算。
其对应关系如下图所示:
Fig
YMatrixLabels=
用来确定计算所使用的Ymatrix。
把选定的距离矩阵的名字,用双引号引起来,置于一个大括号中。
如下图所示:
Fig
DistMatMantel=
利用YMatrix计算的相关性矩阵的值。
形式如下图所示:
Fig
UsedYMatrixLabels=
属于此组的矩阵的名字集合,用大括号括起来。
形式如下图所示:
Fig
关于Arlequin输入文件的实例,如下图所示:
Fig
在Arlequin安装目录下,会有一个名为“datafiles”的文件夹,里边有各种输入数据的例子,分析数据时参照那些例子的格式即可。
Arlequin的界面及操作
Arlequin软件的操作界面比较友好,操作简便。
单击ArlequinFolder中的“arlequin.exe”文件,会弹出如下操作界面。
Fig
FileMenu
Openproject:
打开所要分析的数据
Closeproject:
关掉正在分析的数据
Quit:
退出
HelpMenu
帮助文件
点击“OpenProject”按钮,会弹出如下对话框:
Fig
选择要分析的数据的路径和名字,点击“Ok”即可载入数据,点击“Cancel”则取消此步操作,点击“ClearList”按钮清除空白框中的数据,点击“Addtolist”可浏览电脑文件夹,载入要分析的数据。
点击“Configuration”按钮,操作界面变为如下图所示:
Fig
Useassociatedsettings:
如果选中此选项,则Alequin对每套数据都将自动载入相同的设置。
Appendresults:
如果选项则每次的运行结果都自动添加到前次运行结果之后。
Includedistancematrixresults:
如果选中此选项,则利用单倍型估计分子分歧度的距离矩阵将在结果文件中显示出来。
KeepAMOVAnulldistribution:
选中此选项,结果文件中空分布的运行结果与输入文件相同,但扩展名为*.va、*.vb等。
Locationofbrowsertoviewresults:
确定结果文件的存放位置。
LocationofEditortoviewproject:
确定用何种文件编辑器去查看或编辑Alequinprojcet和log文件。
点击“ProjectWizard”按钮,会弹出如下对话框。
Fig
DataFile:
确定目标文件的名字和位置,其扩展名必须为*.arp。
Datatype:
确定所分析数据的类型(DNA、RFLP、Microsat、Standard、Frequency)或Genotypedata、Gameticphase、Recessivedata。
Controls:
Numberofsamples(样本数目)、Locusseparator(用什么字符来分隔不同的位点)、Missingdata(用什么字符代表缺失的位点数据)。
Optionaldata:
listofhaplotype(单倍型列表)、distancematrix(距离矩阵)、groupstructure(分组的结构)。
点击“ImportData”按钮,弹出如下对话框。
Fig
通过此对话框,可以将Alequin2.0的数据转化为Alequin1.1、Genepop1.0、Biosys1.0、Phylip3.5、Mega、WinAmova1.55等软件包的数据格式。
载入数据之后,程序的操作界面发生相应的变化。
Fig
点击“Project”按钮,操作界面如下图所示:
Fig
Projecttitle:
所分析数据的名称。
Genotypicdata:
确定输入数据是双倍体基因型数据还是单倍型数据。
Gameticphase:
确定输入数据中配子片段是否已知。
Recessivedata:
确定输入数据中是否为隐性Datatype:
输入数据的类型。
Missingdata:
缺失数据用什么字符来表示。
“Browseresults”按钮可以用来查看计算分析的结果,利用“Editproject”按钮可以编辑数据文件。
“Message”栏显示关于分析数据的基本信息。
Arlequin软件还能同时处理多个文件,这点类似于,DOS系统下的批处理命令。
这样的批处理文件以“*.arb”为扩展名。
打开一个批处理文件,其操作界面与普通数据有所不同,如下如图所示:
Fig
对上述操作界面,阐释如下:
Useassocaitedsettings:
对每套数据采用已经准备好的相关设置。
Useinterfacesettings:
对每套数据采用事先预订好的同一套计算设置。
Resultstosummarize:
这个选项允许从批处理列表中选择出每个文件所要进行的计算分析选项。
这些结果会被写进不同的文件中,但这些文件都以“*.sum”为扩展名,而且这些文件与“Batchfile”置于同一目录下。
点击“CalculationSettings”,可进行具体的计算分析设置,其操作界面如下图所示:
Fig
“CalculationSettings”对话框被分为三个部分。
在操作界面的左上方是一个树形的结构,使用户可以快速的选择进行何种运算。
在操作界面的左下方是针对于每项计算任务的具体参数的设置,各种运算参数可以显示在这个区域。
在操作界面的右上方会显示,被选中的计算任务的一些基本信息。
“Settings”栏基本信息的说明:
Load:
载入事先确定好的运算设置(保存在以*.ars为扩展名的文件中)。
Save:
把当前的运算设置保存到以*.ars为扩展名的文件中。
Reset:
把所有的设置恢复到缺省值。
选择主操作界面左上方树形结构中的“Generalsettings”的“Projectfiles”选项,操作界面变为如下图所示:
Fig
“Projectfile”:
所进行分析的数据文件的路径及名字(多以*.arp为扩张名)。
“Resultfile”:
包含Arlequin软件包运行结果的html文件,此文件的名字与数据文件的名字一致,只是扩张名为*.html。
“HTMLfile”:
包含结果文件主要结构的html文件。
选择主操作界面左上方树形结构中的“Generalsettings”的“Polymorphismcontrol”选项,操作界面变为如下图所示:
Fig
对上述操作界面的解释如下:
Allowedmissinglevelpersite:
此参数用来确定用来计算分析的任何位点的缺失数据的多少。
例如,0.05的水平意味着,一个基因座如果有超过5%的缺失位点,则在计算过程中将不被认可。
这个选项在处理不同个体且测序片断不太相同的DNA数据时,尤其有用。
如果把此参数设为0,则意味着在所有个体中不能有缺失位点。
相反,如果把此参数设为1,则意味着在所有个体中的缺失位点是允许的。
Transversionweitght:
颠换的权重(处理DNA序列时)。
Transitionweight:
转换的权重(处理DNA序列时)。
Deletionweight:
位点缺失的权重(处理DNA序列或RFLP数据时)。
InferhaplotypesfromdistancematrixorUseoriginalhaplotypedefinition:
确定用何种数据来确定相似的单倍型,第一个选项的依据是计算所得的遗传距离,第二个选项的依据是数据原始状态的不同。
选择主操作界面左上方树形结构中的“Generalsettings”的“SettingsfortheEMalgorithm”选项,操作主界面变为如下图所示:
Fig
“SettingsfortheEMalgorithm”:
与EM运算程序及输出直接相关的单倍型频率估计的一些设置。
“Significantdigitsforoutput”:
此参数确定在结果输出文件中,单倍型估计频率的有效数字的多少。
“Epsilonvalue”:
此参数设定了一个标准,即当估计未知配子片断基因型数据的单倍型频率或连锁不平衡时,到何种程度才停止程序的继续运算。
这个标准在不同的个体单倍型中是不一样的,程序的默认缺省值为1.0E-7。
选择主操作界面左上方树形结构中的“Diversityindices”的“Moleculardiversity”选项,操作主界面变为如下图所示:
Fig
对此操作界面的解释如下:
“Standarddiversityindices”:
计算几种常见的分歧度参数,如等位基因的数目、分离位点的数目、杂合的水平等等。
“Moleculardiversity”:
在分子水平上计算遗传分歧度的几个参数的选择框。
“Computeminmumspanningnetworkamonghaplotypes”:
利用每个人群的单倍型数据计算最小支撑树和最小支撑扩张网络图。
“Moleculardistance”:
在比较单倍型差异时,选择遗传距离的类型。
“Pairweisedifference”为配对差异距离,“proportionofdifference”为核苷酸差异数的百分比。
“Gammaavalue”:
当选择位点之间进化速率不同的位点的遗传距离时,设定gamma功能的图形校正的参数值。
这个选项只对于计算某些DNA序列间的遗传距离有用。
如果选择了“0”,则将会使gamma参数校正失去意义。
如果此数值设置为无穷大,也将使gamma参数校正失去意义。
“Printdistancematrix”:
如果选择此选项,则样本之间的分子分歧距离会在结果文件中显示。
Theata(Hom):
通过估计观测到的纯质性H而得到的一个参数θ。
Theta(S):
通过估计观测到的隔离位点S的个数而得到的一个参数。
Theta(k):
通过观测到的等位基因k的个数而得到的一个参数。
Theta(π):
通过平均配对差异数而得到的一个参数。
例如,段论文:
采用Arlequin群体系统分析软件对克里雅河流域封闭人群6个STR基因座的实验数据进行处理,计算得到平均基因变化(averagegenediversity)为0.5835±0.3354,平均配对差异(meannumberofpairwisedifferences)为3.5012±1.8135。
选择主操作界面左上方树形结构中的“Diversityindices”的“Mismatchdistribution”选项,操作主界面变为如下图所示:
Fig
“Mismatchdistribution”:
不配对分布或平均配对差异分析,是将一个或多个群体的任两个序列进行两两比较得出的各序列间的配对差异情况。
而群体间的配对差异分析(intermatchdistribution)是群体间的序列进行两两比较得出的配对差异情况。
“Moleculardistance”:
程序提供了两种分子距离模型,“Pairwisedifference”和“Proportionofdifference”。
“Pairweisedifference”为配对差异距离,仅仅是单倍型之间所观测到的不同的核苷酸的数目;“proportionofdifference”为核苷酸差异数的百分比。
Numberofbootstrapreplicates:
进行自展的次数,重抽样的序列用重置的样本位点产生。
“Mismatchdistribution”的意义:
通过考察群体的核苷酸不配对曲线是否单峰型或多峰型、是否偏离中性检验,可以推测过去群体是否发生过扩张。
一般群体在过去经受扩张或持续增长,其核苷酸不配对分布曲线(mismatchdistribution)会呈现单峰泊松分布,TajimaD中性检验显著偏离中性突变;而群体大小保持稳定时,核苷酸不配对分布曲线则呈现多峰曲线分布,TajimaD值检验不显著。
低的Tajima’sD值和配对差异的钟型分布,可以作为一个古代群体扩张的证明。
根据核苷酸不配对分析还可估算出τ值,依据T=τ/2uM(T为群体扩张发生的时间,多以世代表示;M为序列长度;u为进化速率)可推算群体发生扩张的年代。
过去对群体时代时间多采用20年或25年的估计值,最近tremblay等分析估算的结果表明30年可能是一个更合适的值。
例如:
段论文,在研究新疆克里雅河封闭人群时,根据群体核苷酸不配对分析进一步估算出此封闭人群的τ值为6.277,依公式τ=2μT,采用33%的进化速率,则克里雅人群体扩张时间约发生在距