构建系统发育树需要注意的几个问题Word文件下载.docx
《构建系统发育树需要注意的几个问题Word文件下载.docx》由会员分享,可在线阅读,更多相关《构建系统发育树需要注意的几个问题Word文件下载.docx(16页珍藏版)》请在冰点文库上搜索。
距离矩阵(distancematrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。
系统进化树的构建质量依赖于距离估算的准确性。
一.clustalX建树
1)打开clustalX,载入上述序列,“loadsequences”→“outputformatoptions”:
“CLASTALFORMAT”;
CLASTALSEQUENCESNUMBERS:
ON;
ALIGNMENTPARAMETERS:
“RESETNEWGAPSBEFORALIGNMENT”
“MULTIPLEALIGNMENTPARAMETERS”→设置相关参数
2)“DOCOMPLETEALIGNMENT”→FILE→SAVEAS,掐头去尾。
3)打开MEGA4,FILE→CONVERTTOMEGAFORMATE→SAVE→FILE→OPENDATA→CONTAININGPROTAINSEQUENCESNO→PHYLOGENY→BOOTSTRAPTESTOFPHYLOGENY→NJ→设置相关参数。
最后看到系统发育树
二.这里要介绍的是Bioedit-Mega建树法,简单实用,极易上手。
1将所测得的序列在NCBI上进行比对,这个就不多讲了。
2选取序列保存为text格式。
3运行Bioedit,使用其中的CLUSTALW进行比对。
4运用MEGA4建树,首先将前面的文件转化格式为mega格式,然后进行激活,最后进行N-J建树。
此法简单实用,树形美观。
构建系统进化树的详细步骤
1.
建树前的准备工作
1.1
相似序列的获得——BLAST
BLAST是目前常用的数据库搜索程序,它是Basic
Local
Alignment
Search
Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul
et
al.,1990[62];
1997[63])。
国际著名生物信息中心都提供基于Web的BLAST服务器。
BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。
首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。
这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。
它们都有一个大的文本框,用于粘贴需要搜索的序列。
把序列以FASTA格式(即第一行为说明行,以“>
”符号开始,后面是序列的名称、说明等,其中“>
”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。
如果是DNA序列,一般选择BLASTN搜索DNA数据库。
这里以NCBI为例。
登录NCBI主页-点击BLAST-点击Nucleotide-nucleotideBLAST(blastn)-在Search文本框中粘贴检测序列-点击BLAST!
-点击Format-得到resultofBLAST。
BLASTN结果如何分析(参数意义):
>
gi|28171832|gb|AY155203.1|Nocardiasp.ATCC4987216SribosomalRNAgene,completesequence
Score=2020bits(1019),Expect=0.0
Identities=1382/1497(92%),Gaps=8/1497(0%)
Strand=Plus/Plus
Query:
1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt60
Sbjct:
1gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt58
61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc120
59acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc118
Score:
指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;
Expect:
比对的期望值。
比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,就比对很好了,多数情况下为0;
Identities:
提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同;
Gaps:
一般翻译成空位,指的是对不上的碱基数目;
Strand:
链的方向,Plus/Minus意味着提交的序列和参比序列是反向互补的,如果是Plus/Plus则二者皆为正向。
1.2序列格式:
FASTA格式
由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA数据格式。
FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“>
”开头,下一行起为具体的序列。
一般建议每行的字符数不超过60或80个,以方便程序处理。
多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示:
E.coli1aaattgaagagtttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaa61gtcgaacggtaacaggaagaagcttgcttctttgctgacgagtggcggac……>
AY631071JiangellagansuensisYIM0021gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt61actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc……
其中的„>
‟为ClustalX默认的序列输入格式,必不可少。
其后可以是种属名称,也可以是序列在Genbank中的登录号(AccessionNo.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时ClustalX程序只默认前几位为该序列名称。
回车换行后是序列。
将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件(例:
C:
\temp\jc.txt),即可导入ClustalX等程序进行比对建树。
2.构建系统树的相关软件和操作步骤
构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。
鉴于以上对于构建系统树的评价,结合本实验室实际情况,以下主要介绍N-JTree构建的相关软件和操作步骤。
2.1用ClustalX构建N-J系统树的过程
(1)打开ClustalX程序,载入源文件.File-Loadsequences-C:
\temp\jc.txt.
(2)序列比对
Alignment-Outputformatoptions-√Clustalformat;
CLUSTALWsequencenumbers:
ONAlignment-Docompletealignment(OutputGuideTreefile,C:
\temp\jc.dnd;
OutputAlignmentfile,C:
\temp\jc.aln;
)Align→waiting……
等待时间与序列长度、数量以及计算机配置有关。
(3)掐头去尾
File-SaveSequenceas…
Format:
⊙CLUSTAL
GDEoutputcase:
Lower
CLUSTALWsequencenumbers:
ON
Savefromresidue:
39to1504(以前后最短序列为准)
Savesequenceas:
C:
\temp\jc-a.aln
OK
将开始和末尾处长短不同的序列剪切整齐。
这里,因为测序引物不尽相同,所以比对后序列参差不齐。
一般来说,要“掐头去尾”,以避免因序列前后参差不齐而增加序列间的差异。
剪切后的文件存为ALN格式。
(4)File-Loadsequences-Replaceexistingsequences?
-Yes-C:
重新载入剪切后的序列。
(5)Trees-OutputFormatOptions
OutputFiles:
√CLUSTALformattree√Phylipformattree√Phylipdistancematrix
Bootstraplabelson:
NODE
CLOSE
Trees-Excludepositionswithgaps
Trees-BootstrapN-JTree:
Randomnumbergeneratorseed(1-1000):
111
Numberofbootstraptrails(1-1000):
1000
SAVECLUSTALTREEAS:
\temp\jc-a.njb
SAVEPHYLIPTREEAS:
\temp\jc-a.njbphb
OK→waiting……
在此过程中,生成进化树文件*.njbphb,可以用TreeView打开查看。
(6)Trees-DrawN-JTrees
\temp\jc-a.nj
\temp\jc-a.njph
SAVEDISTANCEMATRIXAS:
\temp\jc-a.njphdst
此过程中生成的报告文件*.nj比较有用,里面列出了比对序列两两之间的相似度,以及转换和颠换分别各占多少。
(7)TreeView
File-Open-C:
Tree-phylogram(unrooted,slantedcladogram,Rectangularcladogram多种树型)Tree-Showinternaledgelabels(Bootstrapvalue)(显示数值)
Tree-Defineoutgroup…→ingroup>
outgroup→OK(定义外群)
Tree-Rootwithoutgroup
通常需要对进化树进行编辑,这时首先要Edit-Copy至PowerPoint上,然后Copy至Word上,再进行图片编辑。
如果直接Copy至Word则显示乱码,而进化树不能正确显示。
2.2Mega建树
虽然ClustalX可以构建系统树,但是结果比较粗放,现在一般很少用它构树,Mega因为操作简单,结果美观,很多研究者选择用它来建树。
(1)首先用ClustalX进行序列比对,剪切后生成C:
\temp\jc-a.aln文件;
(同上)
(2)打开BioEdit程序,将目标文件格式转化为FASTA格式,
File-Open-C:
\temp\jc-a.aln,
File-SaveAs-C:
\temp\jc-b.fas;
(3)打开Mega程序,转化为mega格式并激活目标文件,
File-ConvertToMEGAFormat-C:
\temp\jc-b.fas→C:
\temp\jc-b.meg,
关闭TextEditor窗口-(Doyouwanttosaveyourchangesbeforeclosing?
-Yes);
Clickmetoactivateadatafile-C:
\temp\jc-b.meg-OK-(Protein-codingnucleotidesequencedata?
-No);
Phylogeny-Neighbor-Joining(NJ)
DistanceOptions-Models-Nucleotide:
Kimura2-parameter;
√d:
Transitions+Transversions;
IncludeSites-⊙PairwiseDeletion
TestofPhylogeny-⊙Bootstrap;
Replications1000;
RandomSeed64238
OK;
开始计算-得到结果;
(4)Image-CopytoClipboard-粘贴至Word文档进行编辑。
此外,Subtree中提供了多个命令可以对生成的进化树进行编辑,Mega窗口左侧提供了很多快捷键方便使用;
View中则给出了多个树型的模式。
下面只介绍几种最常用的:
Subtree-Swap:
任意相邻两个分支互换位置;
-Flip:
所选分支翻转180度;
-Compress/Expand:
合并/展开多个分支;
-Root:
定义外群;
View-Topology:
只显示树的拓扑结构;
-Tree/BranchStyle:
多种树型转换;
-Options:
关于树的诸多方面的改动。
2.3TREECON
打开ClustalX,File-Loadsequences-jc-a.aln,File-SaveSequenceas…(Format-PHYLIP;
Savefromresidue-1to末尾;
Savesequenceas:
\temp\jc.phy);
打开TREECON程序,
(1)Distanceestimation点击Distanceestimation-Startdistanceestimation,打开上面保存的jc.phy文件,SequenceType-NuleicAcidSequence,Sequenceformat-PHYLIPinterleaved,SelectALL,OK;
DistanceEstimation-Jukes&
Cantor(orKimura),Alignmentpositions-All,Bootstrapanalysis-Yes,Insertions&
Deletions-Nottakenintoaccount,OK;
Bootstrapsamples-1000,OK;
运算,等待……
Finished-OK。
(2)Infertreetopology
点击Infertreetopology-Startinferringtreetopology,Method-Neighbor-joining,Bootstrapanalysis-Yes,OK.;
运算,等待……Finished-OK。
(3)Rootunrootedtrees点击Rootunrootedtrees-Startrootingunrootedtrees,Outgroupopition-singlesequence(forced),Bootstrapanalysis-Yes,OK;
SelectRoot-X89947,OK;
运算,等待……
(4)Drawphylogenetictree
点击Drawphylogenetictree,File-Open-(new)tree,Show-Bootstrapvalues/Distancescale。
File-Copy,粘贴至Word文档,编辑。
TREECON的操作过程看起来似乎较MEGA烦琐,且运算速度明显不及MEGA,如果参数选择一样,用它构建出来的系统树几乎和MEGA构建的完全一样,只在细节上,比如Bootstrap值二者在某些分支稍有不同。
在参数选择方面,TREECON和MEGA也有些不同,但总体上相差不大。
2.4PHYLIP
PHYLIP是多个软件的压缩包,下载后双击则自动解压。
当你解压后就会发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:
i,DNA和蛋白质序列数据的分析软件。
ii,序列数据转变成距离数据后,对距离数据分析的软件。
iii,对基因频率和连续的元素分析的软件。
iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。
v,按照DOLLO简约性算法对序列进行分析的软件。
vi,绘制和修改进化树的软件。
在此,主要对DNA序列分析和构建系统树的功能软件进行说明。
(1)生成PHY格式文件
首先用ClustalX等软件打开剪切后的序列文件C:
\temp\jc-a.aln另存为C:
\temp\jc.phy(使用File-SaveSequencesAs命令,Format项选“PHY”)。
用BioEdit或记事本打开
(2)打开Phylip软件包里的SEQBOOT
seqboot.exe:
can'
tfindinputfile"
infile"
Pleaseenteranewfilename>
\temp\jc.phy
按路径输入刚才生成的*.PHY文件,显示如下:
Bootstrappingalgorithm,version3.6a3
Settingsforthisrun:
DSequence,Morph,Rest.,GeneFreqs?
Molecularsequences
JBootstrap,Jackknife,Permute,Rewrite?
Bootstrap
BBlocksizeforblock-bootstrapping?
1<
regularbootstrap>
RHowmanyreplicates?
100
WReadweightsofcharacters?
No
CReadcategoriesofsites?
FWriteoutdatasetsorjustweights?
Datasets
IInputsequencesinterleaved?
Yes
0Terminaltype<
IBMPC,ANSI,none>
none
1PrintoutthedataatstartofrunNo
2PrintindicationsofprogressofrunYes
Ytoaccepttheseoftypetheletterforonetochange
R
Numberofreplicates?
1000
0
1000
IBMPC
Y
Randomnumberseed(mustbeodd)?
5(anyoddnumber)
completedreplicatenumber100
completedreplicatenumber200
completedreplicatenumber300
comp