系统发育分析完整版资料下载.pdf
《系统发育分析完整版资料下载.pdf》由会员分享,可在线阅读,更多相关《系统发育分析完整版资料下载.pdf(159页珍藏版)》请在冰点文库上搜索。
建树方法邻接法(Neighbor-Joining,NJ)最大似然法(MaximumLikelihood,ML)最大简约法(MaximumParsimony,MP)贝叶斯法(Bayesianinference,BI)特点:
NJ法是基于最小进化原理经常被使用的一种算法,它构建的树相对准确,假设少,计算速度快,只得一颗树。
缺点:
序列上的所有位点等同对待,且所分析的序列的进化距离不能太大。
适用:
进化距离不大,信息位点少的短序列。
邻接法(Neighbor-Joining,NJ)123原理:
将每个位点所有可能出现的残基替换概率进行累加,产生特定位点的似然值,对所有可能的系统发育树都计算似然函数,似然函数值最大的那颗树即最可能的系统发育树。
优点:
在进化模型确定的情况下,ML法是与进化事实吻合最好的建树算法。
计算强度非常大,极为耗时。
最大似然法(MaximumLikehood,ML)特点:
基于进化过程中碱基替代数目最少这一假说。
推测的树不是唯一的,变异大的序列可能会导致建树错误。
序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。
最大简约法(MaximumParsimony,MP)1234信息位点:
在两个及以上分类单元(的序列)中存在差异,且其中至少有两种变异类型在该位点出现两次及以上。
序列位点及性状Pos123456789Seq1AAGAGTGCAseq2AGCCGTGCGseq3AGATATCCAseq4AGAGATCCG点击这里查看信息位点.表示与Consensus(一致序列)中的碱基相同;
注:
请找出下面序列的信息位点特点:
基于进化模型的统计推论法,具有完整而坚实的数学和统计学基础,可以处理复杂而接近实际情况的进化模型,可以将现有的系统发育知识整合或体现在先验概率中,通过后验概率直观反映出各分支的可靠性而不需要通过自举法检验。
对进化模型比较敏感,BI法中指定的每个氨基酸的后验概率建立在许多假说条件下,在现实中可能不成立。
大或复杂的数据集。
贝叶斯法(Bayesianinference,BI)02PARTTWOWhydoweperformphylogeneticanalysis?
Findevolutionarytiesbetweenorganisms(Analyzechangesoccurringindifferentorganismsduringevolution)Find(understand)relationshipsbetweenanancestralsequenceanditdescendants(Evolutionoffamilyofsequences)EstimatetimeofdivergencebetweenagroupoforganismsthatshareacommonancestorAnotherfieldbuoyedbythegrowthingenomesequencingisphylogenetics,thestudyofevolutionaryrelationshipsbetweenspecies.Number20onthelistisapaper12thatintroducedthe“neighbor-joining”method,afast,efficientwayofplacingalargenumberoforganismsintoaphylogenetictreeaccordingtosomemeasureofevolutionarydistancebetweenthem,suchasNeighbor-joiningtreeshowingexpansionsofABCtransportergenes03PARTTHREEHowtoperformphylogeneticanalysis?
如何规范进行系统发育树的重建?
避免犯一些常识性的错误严谨的科学方法严肃的科学结论(VirologyJournal,IF=2.09)maximumcladecredibilitytree(MCCtree)maximumlikelihoodtree(MLtree)PlantPathology(2015)Doi:
10.1111/ppa.12314Fig2.UnrootedNeighbour-joiningphylogenetictreeoftheCPgeneofPVY遗传距离计算不适合NJ平均距离10平均距离p距离就说明饱和了。
DAMBE软件验证替换饱和:
若ISS小于ISS.c且p=0.0000,极其显著?
就说明序列替换未饱和,可以建树!
12342341231建树步骤多重序列比对MAFFT/ClustalX/ClustalWClustalW(Codons)、Muscle(codons)1stClustalW/XMuscleMAFFT速度:
MuscleMAFFTClustalWT-CoffeeProtein-codingsequence对象:
Non-codingsequenceClustalW(Codons)Muscle(Codons)准确性:
MAFFTMuscleT-CoffeeClustalW多重序列比对的选择*PRANK:
ProbabilisticAlignmentKithttp:
/www.ebi.ac.uk/goldman-srv/prank/prank/如何FASTA格式转为标准Nexus格式123将nucleotide改为dnaexportfile=yourname.nexformat=nexusinterleaved=no;
45格式化为连续式的标准Nexus格式序列保守区的选择2ndRaindy注:
保守区选择主要适用于信息位点足够多的序列,短序列此步可忽略保守区选择之在线Gblock篇Note:
Whenappliedtoshorteralignments,GBLOCKSoftenhasanunwantedeffectontopologyandbootstrapvaluesoftheestimatedphylogenies-theexclusionofsomanycolumnsfromthefinalanalysisbytheprogramsimplyremovingtoomuchinformationfromtheanalysis.However,forlongeralignments,itcanbeshownthatithasapositiveeffect.在线版本:
http:
/www.phylogeny.fr/one_task.cgi?
task_type=gblocks231http:
/www.phylogeny.fr/version2_cgi/one_task.cgi?
task_type=gblocks4保守区选择之本地Gblock篇在实际分析过程中,由于服务器对序列文件的限制,大数据则无法进行在线操作分析,故只能选择使用本地版Gblock进行处理。
下载链接:
/www.phylogeny.fr/downloads.cgiGblock0.91b1.Block参数设置先行设置Block参数,输入参数设置前面的英文字母b,回车即可该参数主要是对于gap的处理,共有5条选项可供设置,其中第5条最为主要。
对于Gap位置的处理有三个标准:
None、Withhalf和All,即对应全部删除Gap、保留一半Gap和保留全部Gap,具体依据数据分析需要而选择。
2.序列类型设置输入o,提示输入文件名称(含扩展名),如RNA2.fas,程序默认识别为蛋白质序列(Protein),需要根据实际情况修改需要类型此时需要根据实际情况修改,本例数据RNA.fas是基于密码子方式的比对,故序列类型应为Codon,在YourChoice后输入t将序列类型切换至Codon即可。
3.获得保守区参数设置完毕,返回主菜单(m),输入g回车,程序会给出原始序列和裁切后的序列长度信息Gblock处理后在目录下,生成两个文件:
一个是-gb(默认扩展名,可修改),另一个是htm的网页文件。
为方便后续分析,可以直接将文件名中的-gb移至.fas前,此时扩展名发生变化,系统会提示,可直接“是”确定。
得到的序列为fas序列文件,可以直接用MEGA打开,示例序列Gblock后长度为2466,为3的倍数(Codon比对)。
核苷酸替换模型的选择MrMTGui:
ModelTest、MrModelTest(PAUP)jModelTest氨基酸替换模型的选择ProtTest3rd进化模型的选择同时支持核苷酸和氨基酸替换模型ModelGeneratorMrModel、Modeltest需要结合PAUP才可以完成,可以生成Mrbayes模块;
jModelTest为独立的Java程序,可以独立操作,但极耗系统资源;
ModelGenerator支持核苷酸和氨基酸替换模型,以快速著称,适用于大数据;
进化模型核苷酸替换模型氨基酸替换模式MrModelTest(24种)ModelTest(56种)jModelTest(24-1624种)ModelGenerator(56种)ProtTest(15?
种)ModelGenerator(96种)注意:
模型越多越准确,但前提是建树软件能支持,否则模型再多,也无用!
MEGA自带模型选择使用BI法时,推荐Mrbayes+Mrmodeltest与BEAST+jModelTest组合。
核苷酸替换模型核苷酸替换模型的选择流程图*注意是连续的Nexus文件序列jModelTestModelGeneratorModelTestMrModelTestNexus*Phylip计算似然值参考标准Fasta最佳模型3.3.1MrMTgui篇设置PAUP、ModelTest、MrModelTest的路径启动PAUP选择nexus文件*,计算scores完成后scores文件保存到PAUP目录下,文件名为保存为mrmodel.scores运行MrModelTest,最终显示在MrMTgui主界面中操作流程图*注意是连续的Nexus文件MrMTgui主界面23141.附带程序路径设置4.结果输出日志窗口2.ModelTest分析3.MrModelTest分析Step1.程序路径设置PAUP路径设置ModelTest路径设置MrModelTest路径设置1212Step2.运行PAUP载入Nexus文件34Step3.保存Score值保存mrmodel.scores/model.scores到PAUP安装目录下,注意文件名56Step4.MrModelTest分析会出现两个运行结果,一个是hLRT得出的结果,如下图:
另一个是AIC给出的结果(优先使用),如下图:
模型参数的PAUP模块模型参数的MrBayes模块最佳模型(用于ML法)最佳模型(用于BI法)3.3.2jModelTest篇Darriba,D.,Taboada,G.L.,Doallo,R.andPosada,D.(2012)jModelTest2:
moremodels,newheuristicsandparallelcomputing.NatMeth,9,772-772.1载入DNA比对序列2计算似然值3替换数方案,值不同,模型数也不同n=3,模型数为24;
n=5,模型数为56;
n=11,模型数为88;
n=203,模型为1624;
模型方案有5个模型方案选项,这些模型结合碱基频率和速率变异参数等可以,共有24-1624个模型可供选择。
Raindy注:
模型越多,有助于提高建树的精确度,但前提是需要相关建树软件的支持,否则模型再多,也无用武之地。
大数据集优先推荐用BIONJ树(基于JC校正距离),其他情况建议用ML优化树。
4jModelTest运算进度(非常耗系统资源)3基于不同标准获得最佳模型标准不同,所选的模型可能会不一致,此时推荐使用AIC或BIC标准4AIC参数设置当第一个选项AICc选中,Samplesize读框内会自动读取序列的长度大小;
如果需要得到PAUP模块的命令参数,可选中“WritePAUP*block”。
5查看结果表格形式网页形式AICc=0对应的模型即为当前数据最佳的模式以表格形式呈现结果将结果以网页形式导出6导出网页日志6最终结果3.3.3ModelGenerator篇3.3.4ProtTest篇1载入数据,推荐首选Nexus格式2计算似然值34勾选模型似然值的不同计算方法5查看结果6AICc=0对应的模型即为当前数据最佳的模式3.3.5MEGA篇MEGA中采用BIC标准,BIC值最低的对应模型为最佳。
GTR:
GeneralTimeReversible;
HKY:
Hasegawa-Kishino-Yano;
TN93:
Tamura-Nei;
T92:
Tamura3-parameter;
K2:
Kimura2-parameter;
JC:
Jukes-Cantor.4th系统发育分析及评估PAUP(MP/ML)MEGA(ML/NJ/MP)MrBayes(BI)RaxmlGUI(ML)3.4.1PAUP建树篇outgroup外群名称Setcriterion=likelihood/parsimony(默认值)Bootstrapnreps=1000keepallcontreedescribetree1/plot=bothbrlens=yessavetreesfrom=1to=1000逐条输入命令后,Execute执行对应操作setcriterion=likelihood将算法设置为似然法;
Outgroup命令设定外群;
bootstrapnreps=1000keepall=yesbrlens=yes此命令设定循环次数为1000次(具体次数可根据实际自定),保存枝长;
describetrees1/plot=bothbrlens=yes此命令设定了描述树的方式,即phylogram和cladogram均显示,显示枝长;
savetreesfrom=1to=1000保存树参数设置说明3.4.4MEGA建树篇MEGA重建NJ树不同算法,标尺的意义不同。
NJ法中是表示遗传距离;
MEGA4之后的版本,Bootstrap一致树没有标尺标记!
MEGA重建ML树本示例数据,最佳替换模型为GTR+G+I,对应设置如左图:
操作与NJ法类似,关键在于模型等主要参数设置ModelRatesamongsites建树流程data.nex文件(Non-interleave格式)文件尾后添加MrBayesblock(含模型参数+批处理脚本)复制至MrBayes文件夹下运行MrBayes主程序,executedata.nex3.4.3MrBayes建树篇#NEXUSBegindata;
Dimensionsntax=56nchar=479;
Formatdatatype=dnagap=-;
MatrixSequence1TATCGAGATCGTCATGGTATGGCCTCCAATGATTTTACCAAAAAGTGTGTGAAGCCSequence2TGTCGAGATCGTCATGGTATGGCCTCCAATGATTTTACCAAGAAGTGTGTGAAGCGSequence3TATCGAGAACGTCATGGTATGGCCTCCAATGATTTTACCAACAAGTGTGTGAAGCC.SequencexTCTGGAGATCGTCATGGTCTGGCCTCCAATGATTTTACCAAAAAGTGTGTGAAGCC;
End;
beginmrbayes;
outgroupSequencex;
lsetnst=6rates=invgamma;
Prsetstatefreqpr=dirichlet(1,1,1,1);
mcmcpsavebrlens=yesngen=2000000samplefreq=100nchains=4;
mcmc;
sump;
sumtcontype=allcompatburnin=5000;
end;
数据模块,建树序列及属性MrBayes模块,模型和运行参数Step1.在Nexus格式的序列末尾,添加Mrbayes模块Begindata;
ntaxtaxa类别数,若数据类型为序列时,即:
序列条数nchar字符长度,若数据类型为序列时,即:
序列长度datatype数据类型,若数据类型为序列时,有dna和proteingapgap的指示符号,默认为-missing缺失数据的指示符号,默认为?
(1)Datablock解析Raindy注:
MrBayes中不支持datatype为nucleotide,格式转换时需要检查ngen共运行代数samplefreq抽样数=运行代数/抽样频率;
nchains运行链数,一般是3冷1热burnin舍弃的样本数,一般为树总数的25%
(2)MrBayesblock解析beginmrbayes;
模型参数批处理运行参数Outgroup设置3121outgroupSequenceX;
outgroupSequenceY;
outgroupSequenceZ;
设置outgroup时,直接输入在outgroup参数后添加应outgroup对应的taxa名称。
如果需要设置多个outgroup,只需要每个outgroup一行,如下:
32目前只有MrModeltest可以直接生成核苷酸替换模型参数,其他模型选择软件需要手动编写;
burnin=ngen/samplefreq25%,示例脚本中burnin=2000000/10025%=5000。
ParameterOptionsNotenst1/2/6/mixedF81/HKY/GTR/Mixedratesequal/gamma/propinv/Invgamma/adgammastatefreqprdirichlet/fixeddirichlet(1,1,1,1)lsetrates=gamma;
prsetaamodelpr=fixed(jones);
ParameterOptionsNoteaamodelprFixed/MixedPoisson/Jones/Dayhoff/Mtrev/Mtmam/Wag/Rtrev/Cprev/Vt/Blossum/mixedratesEqual/Gamma/Propinv/Invgamma/AdgammastatefreqprDirichlet/Fixeddirichlet(1,1,1,1)+FExexxxxx.nex回车即可Step2.在MrBayes中运行添加Mrbayes模块后的Nexus文件推荐将序列文件放在Mrbayes安装目录内0.0133660.01如果这个值0.05,说明参数未收敛,需要继续增加运行代数,比如:
10万代在运行1000代后都会显示Averagestandarddeviationofsplitfrequencies当这个值2004当各项统计参数的ESS值均大于200时,说明参数已收敛!
在系统发育分析过程中,不用的建树方法重建不同的系统发育树,为保证分析结果的可靠性,必须要进行系统发育树的评估,主要采用的方法是自举法(Bootstrap)。
Bootstrap法就是从整个序列的碱基或氨基酸中任何选取一半,剩下的一半序列随便补齐组成一个新的序列,这样一个序列就可以变成许多序列,一个多序列组可以变成多个序列组,通过不同算法(MP、ML、NJ),每个序列组都可以生成一棵树,将生成的许多进化树进化比较,按照多数规则(majority-rule)就会得到一棵最“逼真”的进化树。
系统发育树可靠性检验Raindy注:
贝叶斯法通过后验概率直观反映出各分支的可靠性而不需要通过自举法检验MEGA中系统发育树的评估Thecongruentmaximum-likelihoodandBayesiantopology.10086后验概率自举值系统发