Mega软件的使用.docx-资源下载

Mega软件的使用.docx

1、Mega软件的使用MEGA软件的使用引言现代分子生物学所积累的数据库（如美国国家生物信息中心建立的GeneBank等）隐含着大量的生物系统学和生物进化的有用信息。计算机软件是挖掘这些知识宝藏的最有效的工具，而且这些数据库不断快速扩展，信息量十分庞大。因此，如果没有计算机软件的帮助，我们简直无法开战分子系统学和分子进化方面的研究工作。同样，这些数据分析方法和软件在古DNA研究中是必不可少的。因为有着坚实的分子进化和人类遗传学基础，序列比对分析已经成为重构物种和基因家族进化历史，估算分子进化速率、推断基因和基因组进化过程中自然选择力量的强度等的必不可少的方法和手段。计算机的应用和统计学的介入大大简

2、化这些工作。在这些背景下，Sudhir Kumar、Koichiro Tamura和Masatonshi Nei和在上世纪九十年代初就发展了Mega遗传分析软件，并不断改进。现在公布了3.0版，增添很多新功能，并使软件使用者能在线取得帮助。Mega（Molecular Evolutionary Genetics Analysis）是一个界面友好、操作简便、功能强大的分子进化遗传分析软件，也是文献中经常用到的分析软件。尤其是，Mega的新版本对使用界面做了优化，并有改进了许多统计学和遗传学算法，其支持的文件格式很多，而且可以直接从测序图谱中读取序列。另外，Mega 软件还内嵌了一个Web浏览器，

3、能直接登录NCBI网站。Mega软件操作起来很方便，其界面与传统的Windows程序界面很像，即使初学者也很易上手。Mega软件功能十分强大，尤其在计算遗传距离、构建分子系统树方面。Mega软件提供多种计算距离的模型，包括Jukes-Cantor距离模型、Kimura距离模型、Equal-input距离模型、Tamura距离模型、HEY距离模型、Tamura-Nei距离模型、General reversible距离模型、无限制距离模型等。Mega软件可以计算个体之间的遗传距离，还可估算群体间的遗传差异，及群体间的净遗传距离；而其还可以估算一个群体或整个样本的基因分歧度的大小。另外Mega还提供

4、了多种构建分子系统树的方法，包括算术平均的不加权对群法（UPGMA，unweighted pair group method with arithmetic mean），邻接法（NJ，Neighbor-Joining），最大简约法（MP，Maximum Parsimony）、最小进化法（ME，Minimum Evolution）等。在此基础上，Mega软件还提供了对已构建系统树的检验，包括自展法（Bootstrap Method）检验和内部分支检验等。在对于自然选择方面，Mega软件提供了Codon-Based Z检验、Codon-Based Fishers 原样检验t和Tajima中性检验三

5、种方法。总之，Mega 软件提供了构建分子系统树，进行系统发育分析各个方面的计算和分析。本章将以古DNA数据分析为例，介绍Mega软件的基本原理和方法、使用和操作、以及相关结果的分析。Mega软件包的下载网址为：Mega软件输入数据的格式Mega软件输入数据的格式比较简单，在众多遗传学分析软件中是比较容易制作的一种。首先，如果输入数据是一般的DNA或RNA序列，则有如下要求：1）文件扩展名以*.meg或*.txt结尾都行；2）输入数据文件，第一行必须有Mega程序所需的特殊标记“#MEGA”；3）“TITLE”位于输入文件的第二行，后边可以跟上一些说明性字符，这些字符在输出结果中会显示出来。在

6、与“Title”同一行上的字符才有效，而且字符总数不能超过128，超过的也会被忽略。4）在“#MEGA”和“TITLE”之后，在分析数据之前可以一行或多行的说明性文字。这些文字可用来说明诸如作者、分析日期、分析目的等信息。5）在每个数据（或每条序列）的名字之前应该有一个“#”，名字的下一行是具体的序列。在同一个数据文件里，不能出现数据名相同的序列。在数据名及具体序列中，空格和TAB是被忽略的。6）在同一数据文件内，所有序列的长度应该保持一致，否则，程序不能执行。 7）对于DNA或RNA序列，Mega软件能够识别A、T、C、G、U五种字符，缺失字符可以用“？”表示，比对时的空缺位点可以用“”表示

7、。下边是一个数据文件示例：Fig其次，如果输入数据是遗传距离矩阵，则要求如下：1）前4点要求同对上述DNA序列的要求相同；2）在每个距离矩阵的名字之前应该有一个“#”，每个名字占一行；先列出距离矩阵的名字，然后再给出距离矩阵；3）距离矩阵有两种形式，下三角和上三角。下边是一个数据文件示例：Fig下图是距离矩阵的示意图，左边是下三角矩阵，右边是上三角矩阵。Fig再次，如果数据是测序图谱的形式，直接导入即可。下图是测序图谱示例：FigMEGA界面及操作Mega是一款操作十分简便的遗传学分析软件，其界面十分友好，即使初学者也很易上手。1、数据的录入及编辑Mega软件能够接受多种数据格式，如FASTA

8、格式、Phylip格式、PAUP数据格式等等。而且Mega软件专门提供了把其他格式的数据转换位Mega数据格式的程序。首先，打开Mega程序，有如下图所示的操作界面：Fig单击工具栏中的“File”按钮，会出现如下图所示的菜单：Fig从上图可以看出，下拉菜单有“Open Data”（打开数据）、“Reopen Data”（打开曾经打开的数据，一般会保留新近打开的几个数据）、“Close Data”（关闭数据）、“Export Data”（导出数据）、“Conver To MEGA Format”（将数据转化为MEGA格式）、“Text Editor”（数据文本编辑）、“Printer Setu

9、p”（启动打印）、“Exit”（退出MEGA程序）。单击“Open Data”选项，会弹出如下菜单：Fig浏览文件，选择要分析的数据打开，单击“打开”按钮，会弹出如下操作界面：Fig此程序操作界面，提供了三种选择数据选择：Nucleotide Sequences（核苷酸序列）、Protein Sequences（蛋白质序列）、Pairwise Distance（遗传距离矩阵）。根据输入数据的类型，选择一种，点击“OK”即可。如果选择“Pairwise Distance”，则操作界面有所不同；如下图所示：Fig根据遗传距离矩阵的类型，如果是下三角矩阵，选择“Lower Left Matrix”即

10、可；如果是上三角矩阵，选择“Upper Right Matrix”即可。点击“OK”按钮，即可导入数据。如果是核苷酸数据，则读完之后，会弹出如下对话框：Fig如上图，如果是编码蛋白质的核苷酸序列，则选择“Yes”按钮；如果是不编码蛋白质的核苷酸序列，则点击“No”按钮。之后，会弹出如下操作窗口：Fig此作界面的名称是“Sequence Data Explorer”，在其最上方是工具栏“Data”、“Display”、“Highlight”等，然后是一些数据处理方式的快捷按钮，在操作界面的左下方是每个序列的名称。显示序列占了操作界面的绝大部分，与第一个序列相同的核苷酸用“.”表示，发生变异的序列

11、则直接显示。如果在弹出的对话框中，点击“OK”，即选择输入的数据是编码蛋白质的DNA序列。那么会再弹出如下对话框：Fig此操作界面提供了多种生物的遗传密码方式的选择，如Vertebrate Mitochondrial（脊椎动物线粒体）、Invertebrate Mitochondrial（非脊椎动物线粒体）、Yeast Mitochondrial（酵母线粒体）等等。点击此操作界面的“Add”按钮，可以添加密码子表格，其编辑界面如下图所示：Fig通过此操作界面可以创建、修改密码子表格。点击“OK”按钮可以返回“Select Genetic Code”操作界面。点击“Select Genetic

12、Code”操作界面的“Delect”按钮，可以删除一个密码子表。点击“Select Genetic Code”操作界面的“Edit”按钮，可以对已经存在的密码子表格。其操作界面与“Genetic Code Table”相同。点击“Select Genetic Code”操作界面的“View”按钮，可以浏览选中的密码子表格。点击“Select Genetic Code”操作界面的“Statistics”按钮，可以统计密码子表格的一些信息，如每种密码子的频率、同义位点数、非同义位点数等。点击点击“Select Genetic Code”操作界面的“OK”按钮，会弹出如上图所示的“Sequence

13、 Data Explorer”操作界面。如果点击“Cancel”按钮，也会弹出此操作界面，但是此时会把数据默认为非编码的DNA序列。单击“Sequence Data Explorer”操作界面工具栏的“Data”按钮，有如下图所示的下拉菜单：Fig下拉菜单有六个选项：“Write Data To File”（将数据转到文件中，利用此选项可以把Mega数据格式的数据转化成其它格式）、“Translate/Untranslate”（是否翻译，这个选项只有所分析的DNA序列是编码序列时才被激活）、“Selcet Genetic Code Table”（选择遗传密码表，这个选项只有所分析的DNA序列是

14、编码序列时才被激活）、“Setup/Selcet Genes&Domains”（选择或设置基因或结构域）、“Setup/Select Taxa&Group”（对数据进行分组）、“Quit Data Viewer”（退出此浏览框）。单击“Write Data To File”选项，会弹出如下对话框：FigTitle框显示的内容是数据文件中“TITLE”之后的内容。Description框显示的内容是数据文件中对整体数据描述的内容。Format选项提供一个下来菜单，通过此下拉菜单可以把数据转化为MEGA格式、Nexus（PAUP4.0）格式，PHYLIP3.0格式、Nexus（PAUP3.0/Ma

15、cClade）格式。Writing site numbers 选项也提供一个下拉菜单，通过此下来菜单可以把给每个核苷酸标序号，“None”为不显示序号，“For each site”为每个位点显示序号，“At the end of line”在每一行行末显示序号。 Missing Data and alignment gaps选项也提供了一个下拉式菜单，这个菜单包括：“Include sites with miss/ambiguous data gaps”（显示缺失位点及模糊位点以及空缺）、“Exclude sites with miss/ambiguous data gaps”（不显示缺失位

16、点及模糊位点以及空缺）、“Exclude sites with miss/ambiguous data only” （仅不显示缺失位点及模糊位点）、“Exclude sites with alignment gaps only”（仅不显示比对是的空缺部分）。如上述操作界面中的选项，点击“OK”按钮，会弹出如下界面：Fig此操作界面中的文字可以拷贝到文本文档中。如果在“Squence Data Explorer” 操作界面的工具栏中选择“Highlight”中的“Varible sites”选项，则单击“Write Data To File”选项，会弹出如下对话框：Fig我们会发现与上述“Exp

17、orting Sequence Data”操作界面相比，在最下方增加了一个“Selceted sites to Include”下拉菜单框，此框包含：All sites（所有位点）、“Only highlighted sites”（只显示相互之间有变异的位点）、“Only unhighlighted sites”（只显示相互之间无变异的位点）三个选项。如上图中的操作界面中的选项，点击“OK”按钮，则会弹出如下对话框：Fig可以看出，在此操作界面中，仅显示了有变异的位点。这样的数据形式在转化成“NetWork”遗传分析软件所需的数据格式时很方便。单击“Sequence Data Explorer

18、” 操作界面的工具栏中“Data”中的“Setup/Selcet Genes&Domains”选项，会弹出如下对话框：Fig通过此操作界面可以检测、确定、选择结构域，为某些位点添加标签等。这个操作界面包括两大部分：“Define/Edit/Select”和“Site Labels”。通过操作界面中“Genes/Domain”的子菜单“Data”可以设置，起始位点和末位点。通过“Codon Start”选项，可以选择编码的起始位置。在操作界面下端有一排按钮：“Add Gene”、“Add Domain”、“Delete/Edit”、“Expand”。通过“Add Gene”按钮可以添加或插入一个

19、新的基因，通过“Add Domain”按钮可以添加或插入一个新的结构域，通过“Delete/Edit”按钮可以对数据进行编辑和删除，通过“Expand”可以展开数据，或仅显示第一水平的数据。点击“Site Labels”按钮，上述操作界面变为如下图所示：Fig点击上述操作界面中的“Close”按钮，返回“Sequence Data Explorer”操作界面。选择工具栏“Data”下拉菜单中的“Setup/Select Taxa&Groups”选项，弹出如下图所示操作界面：Fig如上图操作界面，点击“New Group”按钮可以创建一个新的组，点击“Delete Group”按钮可以删除一个已

20、经存在的组，在操作界面的中间竖排有五个按钮，同最上端两个按钮可以把数据移入或移出一个选定的组，点击第三个按钮可以对选定的组进行重新命名，点击“+”按钮可以创建一个新的组，点击“”按钮可以删除一个已经存在的组。注意，组的名字不能与任何一个样本重名。点击“Close”按钮，“Sequence Data Explorer”操作界面。点击此操作界面中的“Display”按钮，会弹出如下操作菜单：Fig从上述操作界面图看，下拉菜单共有：“Show Only Selected Sequences”（仅显示选中的序列）、“Use Identical Symbol”（利用同一标记符号）、“Color Cell

21、s”（色彩单元）、“Sort Sequences”（序列分类）、“Restore Input Order”（恢复输入序列的顺序）、“Show Sequence Names”（显示序列名字）、“Show Group Names”（显示序列所在的组的名字）和“Change Font”（改变字体）八个选项。选择“Show Only Selected Sequences”选项，只有被选中的序列才会在界面中显示，不过软件默认的是所有输入的序列都是被选中的，不过软件使用者是可以修改哪些序列被选中。选择“Use Identical Symbol”选项，那么与第一个序列相同的核苷酸将用“.”显示，与之相比，发

22、生变异的核苷酸才以“A、T、C、G”的形式显示。选择“Color Cells”选项，不同的核苷酸将用不同的颜色显示，如下图所示。“Sort Sequences”选项有四个子选项：“By Sequence Name”（通过序列名字排列）、“By Group Name”（通过组的名字排列）、“By Group&Sequence Name”（通过组和序列的名字排列）、“As per Taxa&Group Organizer”（）。选择“Restore Input Order”选项，则序列排列顺序恢复到与输入数据文件中的顺序一样。选择“Show Sequence Names”选项，则每个序列的名字被显

23、示。选择“Show Group Names”，则每个序列所在的组的名字将被显示。选择“Change Font”选项，可以改变序列名字、组名及其序列本身的字体大小及颜色，默认的字体大小是“小五”，默认的字体颜色是黑色，默认的字型是常规，无下划线、删除线。Fig点击“Sequence Data Explorer”操作界面的“Highlight”选项，会有如下图所示的下拉菜单选项：Fig由上图可以看出，“Highlight”的下拉菜单共有七个选项：“Conserved Sites”（C，保守位点）、“Variable sites”（V，变异位点）、“Parsim-Info sites”（P，简约信息

24、位点）、“Singleton sites”（S，单独位点）、“0-fold Degenerate sites”（0，未简并位点）、“2-fold Degenerate sites”（2，2倍简并位点）、“4- fold Degenerate sites”（4，4倍简并位点）；其中后三个选项，只有在输入的序列是编码序码时才被激活。选择“Conserved Sites”选项，所有的保守位点，即没有发生变异的位点，将被突出显示，位点的总数目将在状态栏（操作界面最下端）显示。选择“Variable sites”选项，所有的变异位点，将被突出显示，位点的总数目将在状态栏（操作界面最下端）显示。选择“Pa

25、rsim-Info sites”选项，所有简约变异位点（即变异至少包括两种类型的核苷酸或氨基酸）将被突出显示，位点的总数目将在状态栏（操作界面最下端）显示。选择“Singleton sites”选项，单突变（变异至少包括两种类型的核苷酸或氨基酸，而且在所有样本中仅发生一次）的位点，将被突出显示，位点的总数目将在状态栏（操作界面最下端）显示。选择“0-fold Degenerate sites”选项，那些所有突变都是非同义突变的位点，将被突出显示，位点的总数目将在状态栏（操作界面最下端）显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。选择“2- fold Degenerate s

26、ites”选项，那些在所有突变中同义突变占1/3的位点，将被突出显示，位点的总数目将在状态栏（操作界面最下端）显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。选择“4- fold Degenerate sites”选项，那些所有突变全部是同义突变的位点，将被突出显示，位点的总数目将在状态栏（操作界面最下端）显示。此选项只有在输入数据中含有编码蛋白的DNA序列时才被激活。点击“Sequence Data Explorer”操作界面的“Statistics”选项，会有如下图所示的下拉菜单选项：Fig从上图可以看出，此下拉菜单总共有六个选项：“Nucleotide Compositi

27、on”（核苷酸组成）、“Nucleotide Pair Frequence”（核苷酸配对频率）、“Codon Usage”（密码子使用）、“Amino Acid Composition”（氨基酸组成）、“Use All Selected Sites”（利用所有选择的位点）、“Use Only Highlighted Sites”（仅利用突出显示的位点）。选择“Nucleotide Composition”选项，可以计算得到，每条序列中A、T、C、G及U的百分含量，以及总的核苷酸个数，还可以得到整个数据中A、T、C、G及U的百分含量。如果数据是编码蛋白质的DNA序列，那么还可以得到每种核苷酸在密

28、码子各个位置的比例。选择“Nucleotide Pair Frequence”选项，可以计算DNA序列中核苷酸配对的频率。这个选项有两个子菜单：“Directional（16 Pairs）”和“Undirectional（10 Pairs）”。一个是有方向性的，一个是没有的。选择“Codon Usage”选项，能够统计出每种密码子的使用频率。选择“Amino Acid Composition”选项，能够统计出每条序列中各种氨基酸的组成百分含量，以及总的氨基酸个数。还可以计算出整个数据中每种氨基酸的组成百分含量。此选项只有在输入数据是氨基酸的条件下才被激活。选择“Use All Selected

29、 Sites”选项，在计算统计时，可以利用所有被选中的位点。选择“Use Only Highlighted Sites”选项，在计算分析时，仅利用那些被突出显示的位点进行计算。在菜单栏的下方是一些常用的快捷方式，如下图示：Fig上图图标中，所对应的操作从左到右依次是：“Write Data To File”（将数据转到文件中）、“Setup/Select Taxa&Group”（对数据进行分组）、“Setup/Selcet Genes&Domains”（选择或设置基因或结构域）、“Use Identical Symbol”（利用同一标记符号）、“Color”（进行色彩设置）、“Conserve

30、d Sites”（C，保守位点）、“Variable sites”（V，变异位点）、“Parsim-Info sites”（P，简约信息位点）、“Singleton sites”（S，单独位点）、“0-fold Degenerate sites”（0，未简并位点）、“2-fold Degenerate sites”（2，2倍简并位点）、“4- fold Degenerate sites”（4，4倍简并位点）、将核苷酸序列翻译为蛋白质序列。点击“Sequence Data Explorer”界面的“Data”下拉菜单中的“Quit Data Viewer”选项，即可关闭此操作界面，返回到Mega

31、操作的主界面。2、遗传距离的计算2.1 遗传距离模型的选择点击Mega操作主界面的“Distances”按钮，会弹出一个下拉菜单。如下图所示：Fig从上图易知，此菜单包括如下选项：“Choose Model”（选择模型，即选择计算遗传距离的模型）、“Compute Pairwise”（计算遗传配对差异）、“Compute Overall Mean”（计算包括所有样本在内的平均遗传距离）、“Compute With Group Means”（计算组内平均遗传距离）、“Compute Between Groups Means”（计算组间平均遗传距离）、“Compute Net Between Gr

32、oups Means”（计算组间平均净遗传距离）、“Compute Sequence Diversity”（计算序列分歧度）。“Compute Sequence Diversity”选项包括四个子菜单：“Mean Diversity Within Subpopulations”（亚群体内部平均序列多态性）、“Mean Diversity for Entire Population”（整个人群平均序列多态性）、“Mean Interpopulaional Diversity”（群体内部平均序列多态性）、“Coefficient of Differentiation”（遗传变异系数）。点击“Choose Model”选项，会弹出如下操作界面：Fig从上述操作界面可以看出，通过此对话框可以选择计算遗传距离的模型等。“Data Type”显示数据的类型：

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？