MEGA计算序列间遗传距离.docx

资源描述

MEGA计算序列间遗传距离.docx

《MEGA计算序列间遗传距离.docx》由会员分享，可在线阅读，更多相关《MEGA计算序列间遗传距离.docx（14页珍藏版）》请在冰点文库上搜索。

MEGA计算序列间遗传距离.docx

MEGA计算序列间遗传距离

序列间遗传距离的计算

1.导入比对好的“*.meg”格式数据。

2.数据划分

（1）序列数据的基因和域（genes&domains）的指定和选择

在MEGA中可对指定范围的序列位点进行分析。

虽然经过比对和剪切后的序列通常都可全长用于分析，但对于蛋白质编码基因序列来说，序列的第一位并非总是密码子的第一位，此时要通过该设置指定密码子是从序列的第几位开始（要先通过Spin翻译确定），否则软件会将序列的第一位默认为密码子的第一位。

具体的操作是：

点击“Data→Setup/SelectGenes&Domains”（在主窗口和数据管理窗口均可进行此设置），在弹出的“Genes/DomainOrganization”小窗口中进行设置；“From”选项用于设置分析的起始位点，“To”用于设置分析的终止位点（设置完成后会在#Site项显示出选定范围内的位点总数），“CodonStart”用于设置密码子（开放阅读框）从序列的第几位碱基开始读起（如密码子从序列的第一位碱基开始读则设置为“1stsite”，依此类推），“Codi…”用于选择是否启动蛋白质翻译功能，该项未选时（如右图）MEGA将无法将蛋白质编码基因序列翻译成蛋白质序列，数据管理窗口中的

按钮将呈灰色显示

而失去功能。

（2）分类单元的分组及选择

MEGA可对数据集中指定的分类单元进行分析。

为了使选择更加方便，通常可对数据的分类单元进行分组（groups），分组的具体操作是：

点击“Data→Setup/SelectTaxa&Groups”（在主窗口和数据管理窗口均可进行此设置），在弹出来的“Setup/SelectTaxa&Groups”小窗口中根据分析需要对分类单元进行分组，选择需要分析的数据组，点击右下角的“Close”按钮关闭小窗口，即可对选定的组进行相关分析。

（3）已分组数据的保存

为了保存已经指定的数据分组，在关闭活动数据文件（activedatafile；在主窗口中用“File→CloseData……Alt+F5”关闭文件或直接关闭MEGA软件）前必须将数据输出另存，否则分组信息不会直接保存在原始序列文件中。

注意，在保存数据时必须确认数据中的所有分类单元都被选定（即在“Setup/SelectTaxa&Groups”小窗口左边的“Taxa/Groups”框中选定“All”选项），否则输出的数据文件中将只能保存分析时选定的数据部分。

3.成对序列遗传距离计算

点击“Distance→ComputePairwiseF7”菜单命令，弹出分析选择（AnalasysPreference）窗口（也可称为参数设置窗口），可通过点击各选项右边的下拉菜单（pull-downmenu）完成设置。

各种参数的设置方法如下：

“Compute”参数设置：

该设置有两个选项，选择“Distancesonly”时只计算遗传距离；选择“Distances&Std.Err.”时在计算遗传距离的同时还计算标准误差，此时会增加一项设置误差计算参数的选项，可以调节。

一般选择“Distancesonly”即可。

“Includesites”参数设置：

该设置包括“Gaps/MissingData”和“CodonPositions”两项。

“Gaps/MissingData”用来设置空位处理原则：

若选“CompleteDeletion”则在计算遗传距离时凡有任一序列具空位的位点都不予计算；若选“ParwiseDeletion”则在计算两条序列的遗传距离时仅不计算两条序列中的任一条具空位的位点，对于两条序列都不具空位的位点，即使数据集中的其它序列存在空位，也不删除；一般情况下都选“ParwiseDeletion”。

“CodonPositions”用来设置计算遗传距离时使用的密码子位点，可以根据需要选择使用密码子中的任意一位或几位或全部位点来计算遗传距离；通常可考虑用不同位点分别计算并进行对比。

“SubstitutionModel”参数设置：

该设置包括“Model”和“SubstitutionstoInclude”两项。

“Model”选项用来选择计算遗传距离时使用的计算模型：

点击“Model”选项右边的

图标，在下拉菜单（pull-downmenu）“Nucleotide→[距离模型，如p-distance、Kimura2-parameter等]”中选择合适的计算遗传距离的模型（理论上应先用Modeltest检验各种模型，然后选择最适模型进行计算，但在通常情况下选择较简单的模型即可，如p-distance、K2P模型等；“Numberofdifferences”是一种根据序列间不同碱基的数量来计算遗传距离的模型，选用此模型时则“Gaps/MissingData”选项应设置为“CompleteDeletion”）。

“SubstitutionstoInclude”用来选择计算遗传距离时使用的碱基替换信息：

“d:

Transitions+Transversions”表示同时利用转换和颠换值来计算遗传距离，“s:

Transitionsonly”表示仅用转换值来计算遗传距离，“v:

Transversionsonly”表示仅用颠换值来计算遗传距离，“R=s/v”表示用转换颠换比值来计算遗传距离（“L:

No.ofValidCommonSites”表示用普通有效位点来计算遗传距离？

）。

所有参数设置完成后点击窗口右下方的

即开始计算，结果将在新窗口

中显示（该窗口最小化隐藏后可从主窗口上方的“Windows”菜单中恢复），将结果另存备用即可。

*利用窗口上方的快捷图标（shortcuts）可选择显示格式和保存格式，如点击

图标可使遗传距离值显示在左下方（lowerleft），点击

图标可使使遗传距离值显示在右上方（upperright），利用

图标可减少（decrease）或增加（increase）小数（decimal）的位数，点击

图标将以文本格式输出计算结果，点击

图标将以Excel格式输出计算结果。

点击任何一个输出格式选择图标都会弹出遗传距离输出选择窗口（DistanceWrite-outOptions），点击的图标代表的格式为该窗口中的默认输出格式，若想改变输出格式，可点击该窗口中OutputFormat选项框右边的

按钮，在下拉菜单中选择其它输出格式。

4.序列总体平均遗传距离：

点击“Distance→ComputeOverallMean”菜单命令，在弹出的分析选择（AnalasysPreference）窗口（也可称为参数设置窗口）中设置各种参数，点击窗口右下方的

，保存计算结果备用。

5.替换饱和性分析（重要）

（1）计算序列的校正遗传距离：

在进行“成对序列遗传距离计算”时将“SubstitutionModel”参数设置中的“Model”选项设置为Kimura2-parameter（也可根据需要选用其它模型，但后面的颠转换、颠换遗传距离计算也要选用同一模型），“SubstitutionstoInclude”选项设置为“d:

Transitions+Transversions”，计算所得的遗传距离作为替换饱和性分析的校正距离，以“*.xls”格式保存备用（输出时MEGA会自动将对角矩阵转换成一列数据）。

（2）计算序列的转换遗传距离：

在进行“成对序列遗传距离计算”时将“SubstitutionModel”参数设置中的“Model”选项设置为Kimura2-parameter（一定要与计算校正距离时选用的模型相同），“SubstitutionstoInclude”选项设置为“s:

Transitionsonly”，计算所得的遗传距离即为替换饱和性分析的转换距离，以“*.xls”格式保存备用。

（3）计算序列的颠换遗传距离：

在进行“成对序列遗传距离计算”时将“SubstitutionModel”参数设置中的“Model”选项设置为Kimura2-parameter（一定要与计算校正距离时选用的模型相同），“SubstitutionstoInclude”选项设置为“v:

Transversionsonly”，计算所得的遗传距离即为替换饱和性分析的颠换距离，以“*.xls”格式保存备用。

注意：

以上分析可选择不同的模型进行比较，看结果是否有差异。

（4）Excel作图，用直观坐标图显示替换饱和性状态。

①导入数据：

将上述三种遗传距离导入同一个Excel文件中，按相同的顺序排成三列，列与列之间不要留下空白列，每一列数据的标识符号（名称）放在该列的顶端（第一行），校正距离放在第一列（因为Excel作图时一般将第一列默认为横坐标）。

②作图：

选定三列数据，点击主菜单中的“插入→图表”，在弹出的“图表向导-图表类型”窗口中选择“标准类型”中的“XY散点图”（在进行其它数据分析时可根据需要选择其它图表类型，包括“自定义”类型），点击“下一步”；在“图表源数据”窗口中点击“下一步”；在“图表选项”窗口中设置需要在图表中显示的各种选项：

在“标题”标签中可设置“图表标题”、“数值（X）轴（A）”标题、“数值（Y）轴（V）”标题，在“坐标轴”标签中可设置“显示/隐藏坐标轴上的数值”，在“网格线”标签中可设置“显示/隐藏网格线”，在“图例”标签中可设置“显示/隐藏图例”以及图例与图表的相对位置（包括“底部、右上角、靠上、靠右、靠左”等选项），在“数据标志”标签中可设置“数据标签”（该项设置只有在数据较少时为了方便识别数据才选用，一般情况下均不予选择），点击“下一步”；在“图表位置”窗口选择图表插入的具体位置，一般选择默认选项“作为其中的对象插入（O）”，点击完成，即会在Excel表中插入一个生成的图表；该图表可直接复制插入到Word文档中使用，也可在Photoshop软件中转换成独立的“*.jpg”文件保存备用，需要时再插入Word文档中。

注意：

该项分析也可在其它一些软件中进行。

如DAMBE，但可供选用的模型在不同软件中有所不同；选择不同密码子的方法是：

点击命令“Sequences→workoncodonposition1/2/3/1+2”,用“Sequences→Restoresequences”命令可恢复全序列进行分析；碱基替换饱和性分析的方法是：

打开序列数据→点击命令“Graphics→transitionandtransversionversusdivergence”，在弹出来的小窗口中选择参数设置，点击“Go”按钮，分析结果将显示在一个新的“GraphTool”窗口中。

图形文件的输出：

在“GraphTool”窗口中点击“File→Savefileinmetafileformat”即可将分析结果保存为“*.WMF”格式的图形文件；若选择“File→Savefileinbitmapformat”，则保存为“*.bmp”格式的图形文件，文件较小，但分辨率较低，不能满足发表论文的需要。

要编辑坐标轴则点击“Graphic→……”菜单进行选择。

若要将分析结果以遗传距离的形式保存，则在“GraphTool”窗口中点击“Edit→CopydatatoEXCEL”，然后创建一个“*.xls”文档，将数据粘贴到新建的“*.xls”文档中即可。

使用DAMBE进行碱基替换饱和性分析的优点是可以直接输出图形文件，对大型数据矩阵特别方便，缺点是以EXCEL格式输出遗传距离值时没有同时输出物种对名称；若要将遗传距离与物种对对应起来，需要使用其它命令或方法。

DNA序列组成及变异分析

*这些分析通常可以在MEGA软件中进行，也可以在其它相关软件中实现，如DAMBE等。

用MEGA进行数据分析时，输入的数据必须是“*.meg”格式文件，否则不能识别，所以在分析数据前要先将其它格式文件转换成“*.meg”格式文件。

MEGA可以将多种格式的序列文件（*.fasta、*.aln、*.nexus、*.phylip、*.phylip2、*.gcg、*.pir、*.nbrf、*.msf、*.ig和*.xml格式）转换成“*.meg”格式，不论其是否已经比对好。

所以，用MEGA转换序列数据格式之前要先将序列比对好并删除引物序列。

许多人通常喜欢将比对整理好的序列保存为“*.fasta”格式，因为这种格式更加通用，而且其它格式的文件均可由此格式通过一定的软件或批处理文件转换生成。

*MEGA（MolecularEvolutionaryGeneticsAnalysis;currenttestversionofMEGAmaybeoutofdate（release#4104）.Werecommendthatyouobtainanupdatedversionfromor”,可考虑重新下载新版本安装，也可点击“OK”后忽略。

一、转换文件格式

1.运行MEGA4.1。

2.导入数据。

点击MEGA4.1主窗口左上角工具栏中的“TextEditorandFormatConvertor”图标

（或点击“File→TextEditor...F3”），在弹出来的“TextFileEditorandFormatConvertor”窗口中点击“File→Open”或直接点击窗口左上角工具栏中的“Openafile（Ctrl+0）”图标

，选择并打开需要转换的序列文件。

*“TextEditorandFormatConvertor”窗口最小化隐藏后可点击MEGA主窗口中的“TextEditorandFormatConvertor”图标

和随之显示在主窗口左下角的该窗口的最小化图标

来恢复，也可点击主窗口中的“File→TextEditor……F3”菜单命令，然后点击显示在主窗口左下角的该窗口的最小化图标

来恢复。

在用MEGA的数据处理窗口“ViewSequenceData”进行统计分析时，若选择了“Statistic→DisplayResultsinTextEditor”设置，即在“TextEditorandFormatConvertor”窗口中显示结果，窗口最小化隐藏后又需要重新使用时也是用同样的方法来激活恢复。

3.点击“TextFileEditorandFormatConvertor”窗口左上角工具栏中的“ConverttoMEGAformat（Contrl+M）”图标

或使用菜单命令“Utilities→ConverttoMEGAformatContrl+M”，在弹出来的“SelectFileandFormat”小窗口中点击“OK”即可完成文件转换。

*一步转换的方法是：

在MEGA4.1主窗口中点击“File→ConvertToMEGAformat”，在弹出来的“SelectFileandFormat”小窗口中点击“Datafiletoconvert”选项栏右侧的“open”图标

，然后在弹出来的“ChooseaFiletoConvert”窗口中选择需要转换的序列文件，点击“打开”按钮

，再点击“SelectFileandFormat”小窗口中的“OK”按钮即完成文件格式转化。

4.检查文件内容，删除多余的符号如“#”和“*”等（这些多余信息通常出现在文件末尾，若不检查删除，MEGA可能在导入文件时无法识别，从而出错），将文件保存到指定的文件夹，关闭文件转化窗口。

另外，序列名称或编号中也不能出现“？

、-、*和#”等符号，否则可能导致出现“序列长度不相等”之类的错误警报。

*若在转化文件格式时确实忘记了检查删除多余信息而导致分析数据时打不开“*.meg”格式的文件，可用下述方法重新检查：

在主窗口中点击“File→TextEditor…F3”打开“TextFileEditorandFormatConvertor”窗口，点击工具栏中的快捷图标

（Openafile（Ctrl+0））打开序列文件，检查数据并删除多余的干扰信息，保存并退出该窗口即可重新导入数据进行后面的分析。

*如果要省去文件格式转换的麻烦，在序列数目较少时可直接将“*.fasta”格式文件导入MEGA进行比对，然后以“*.meg”格式保存即可；具体操作见“用MEGA软件比对序列”。

因这样做并没有使整个操作步骤简化多少，还要重新比对序列（而大多数人更习惯在Clastal软件中比对序列），所以通常没有必要采用这种方法来转换文件格式。

二、DNA序列的碱基组成及变异分析

1.导入数据

在MEGA主窗口中点击“File→OpenDataF5”，打开待分析序列的“.meg”文件；在弹出来的“InputData”小窗口中选择“Datatype”，如“NucleotideSequence”、“ProteinSequences”、“PairwiseDistance”等，点击“OK”按钮；在弹出来的（poppedup）“Confirm”小窗口中出现提问“Protein-codingnucleotidesequencedata?

”，若为蛋白质编码序列则点击“Yes”，若为非蛋白质编码序列则点击“No”按钮；在弹出来的“SelectGeneticCode”小窗口中选择“InvertebrateMitochondial”，点击“OK”按钮，即出现“ViewSequenceData”窗口（数据处理窗口）；该窗口最小化后可点击MEGA主窗口左上角工具栏中的“Exploreactivedata（F4）”图标

来恢复，也可点击主窗口上方主菜单中的“Data→DataexplorerF4”来直接恢复。

*除了上述方法（包括使用快捷键F5）外，还可点击主窗口中的链接

来打开数据文件，其它操作相同。

2.计算保守位点（conservedsites）、变异位点（variablesites）、简约信息位点（parsimony-informativesites）。

这些统计数值可以通过点击数据处理窗口工具栏中的相应图标来显示在窗口的最下方，也可以通过点击“Highlignt→……”菜单命令来显示，将显示结果记录下来备用即可。

例如，将鼠标选中某一个碱基，在窗口的左下角就会显示该碱基所在序列的长度及该碱基在序列中的位置（1/465表示该序列长为465pb，选中的碱基是该序列的第一位碱基；Conserved:

278/465表示分析的序列长465bp，保守位点278个）；其它统计类推。

*工具栏中各快捷图标的含义分别为：

保守位点Conservedsites—C，变异位点variablesites—V，简约信息位点parsimony-informativesites—Pi，自裔位点Singletonsite—S，0-foldDegeneratesites—0，2-foldDegeneratesites—2，4-foldDegeneratesites—4。

将鼠标移到相应的快捷图标上时，会短暂显示“Markconservedsites”、……等字样，由此可知该图标的具体功能。

*Degeneracy（密码子的简并性）

0-folddegeneratesitesarethoseatwhichallchangesarenonsynonymous.（非简并性位点）

2-folddegeneratesitesarethoseatwhichoneoutofthreechangesissynonymous.（Allsitesatwhichtwooutofthreechangesaresynonymousalsoareincludedinthiscategory.）（二重简并位点）

4-folddegeneratesitesarethoseatwhichallchangesaresynonymous.（四重简并位点）

*SingletonSites（自裔位点）

Asingletonsitecontainsatleasttwotypesofnucleotides（oraminoacids）with,atmost,oneoccurringmultipletimes.MEGAidentifiesasiteasasingletonsiteifatleastthreesequencescontainunambiguousnucleotidesoraminoacids.

*工具栏其它快捷图标的含义及对应的菜单命令如下：

对应于“Data→Exportdata”菜单命令，可将序列比对结果以“*.meg”格式文件输出保存。

点击该图标后会弹出“TextFileEditorandFormatConvertor”窗口，点击“Saveafile（Ctrl+S）”图标

即可将文件保存到指定的位置，文件名可自己拟定。

与上面的图标功能相同。

对应于“Statistics→DesplayResultsinExcel（XL）”菜单命令。

对应于“Statistics→DesplayResultsinComma-delimited（CSV）”菜单命令。

对应于“Data→Setup/SelectTaxa&Groups”菜单命令，点击该图标后会弹出“Select/EditTaxaGroups”窗口，在该窗口中可对需要分析的分类单元进行分组或选择已划分的全部或部分组进行分析。

对应于“Data→Setup/SelectGenes&Domains”菜单命令。

对应于“Display→UseIdenticalSymbol”菜单命令；该图标凸显时导入的序列全部以碱基符号显示；

*点击该图标使其凹显（

）时，导入的序列将会以第一条序列为参照，凡是与第一条序列相同的碱基则以一致性符号“.”显示，不相同的碱基以碱基符号显示；输出时可根据需要选择显示形式。

对应于“Data→Translate/UntranslateT”菜单命令，突出显示，表示序列正在以核苷酸的形式显示（如下图），点击该图标后可将核苷酸序列翻译成蛋白质序列显示出来，图标变为凹陷显示

。

对应于“Data→Translate/UntranslateT”菜单命令，凹陷显示，表示序列正在以氨基酸的形式显示，点击该图标后可将蛋白质序列恢复成核苷酸序列显示出来，图标变为凸出显示形式

。

对应于“Display→FindSequence（Ctrl+F）”菜单命令，可以查找序列。

3.计算DNA序列碱基组成

在“ViewSequenceData”窗口（即数据处理窗口）中点击“Satistics→DesplayResultsinTextEditor”，将统计结果设置为在“TextFileEditorandFormatConvertor”窗口中显示（也

展开阅读全文