对一条新的基因序列进行生物信息学的分析.docx

资源描述

对一条新的基因序列进行生物信息学的分析.docx

《对一条新的基因序列进行生物信息学的分析.docx》由会员分享，可在线阅读，更多相关《对一条新的基因序列进行生物信息学的分析.docx（61页珍藏版）》请在冰点文库上搜索。

对一条新的基因序列进行生物信息学的分析.docx

对一条新的基因序列进行生物信息学的分析

海南中学

作者：

许汝言

指导老师：

黄小葵

论文摘要

本研究的主要内容是运用生物信息学的手段结合生物学实验方法对从一株产ß-甘露聚糖酶的新菌种A.tabescensEJLY2098获得的新基因序列（命名为man）进行生物信息学的分析。

针对然后结合利用所获得的信息设计生物学方法证实其生物学功能。

关键词：

ß-甘露聚糖酶；A.tabescensEJLY2098；生物信息学

论文目的和意义

英国《自然》杂志网络版2006年5月18日报道，科学家已对含有2.23亿个碱基对，占人类基因组中碱基对总量的8%左右的人类第一号染色体完成测序，宣告持续16年的人类基因组计划全部完成。

作为人类自然科学史上重要的里程碑，“人类基因组”的研究已从“结构基因组”阶段进入“功能基因组”阶段。

在人类基因组计划后相继推出的水稻基因组计划、马铃薯基因组计划、草鱼基因组计划等，和快速增长的微生物基因测序，“海量”的基因信息的积累，催生了“功能基因组”时代的来临。

针对充分利用“海量”基因组信息的生物信息学不仅应运而生，而且为以注释、阐明基因功和利用基因生物学功能的“后基因组时代”的研究发挥了重大作用。

生物信息学是把基因组DNA序列信息分析作为源头,在获得了蛋白质编码区的信息后,进行蛋白质空间结构的预测和模拟,然后依据特定蛋白质的功能进行必要的药物设计。

就是说,生物信息学的主要任务是组织和分析生物学数据,而生物学数据的分析离不开计算机算法的运用。

因此,可以说生物信息学是一门集生命科学、计算机科学、数学、物理学为一身的多学科交叉的前沿学科。

生物信息学的主要研究对象是序列,即一维的分子排列顺序所分析,包括DNA分子碱基序列和编码蛋白质的氨基酸序列。

DNA序列分析的主要任务是基因识别和发现某些功能区（如启动子、增强子等）,DNA序列研究的最终目的是说明遗传语言的语法和语法规则,从而最终读懂DNA序列。

蛋白质的结构预测研究始终是生物信息学的核心内容之一,目前研究工作是利用一级结构中的氨基酸排列顺序所隐藏的信息来预测蛋白质的高级结构,而蛋白质结构研究的最终目标是阐明肽链的折叠规律,即所谓破译“第二套生物学密码”。

“基因组计划”积累了大量生物信息。

而生物信息学的任务就是挖掘和利用这些信息,从众多生命信息中发现统一的,本质的,有用的规律。

而这些规律必将促进生命科学,如结构生物学,生物技术,药物设计,分子进化等研究工作的进展。

所以,生物信息学将在“后基因组”的时代,发挥极其重要的作用,这将有助于全部读懂人类基因组的全部信息,有助于揭示基因组物质结构的复杂性,有助于生命起源和生物进化问题的最终解决,有助于识别与鉴定人类特定疾病的相关基因,有助于药物设计理论和方法的改进和提高。

[1-10]

研究现状

随着信息学大环境的改善,如信息高速公路、国际互联网的发展,生物信息学发展迅速。

美国、日本及欧洲各国的生物信息学已相继在Internet上建立了各自的网络节点,进行管理大型数据库,为研究人员提供研究数据的分析、处理、采集、交换的服务。

国际互联网所到之处,都有各种研究机构的联网、数据库的建立,开展生物信息学研究。

各种数据库各具特色：

GenBank、EMBL、DDBJ是三大核苷酸及蛋白质数据库；GDB数据库主要收集遗传学制图的资料；CEPH的数据库收集YACcontig；Genethon、CHLC储存遗传学标记系列；Whiethead研究所的数据库可了解全部18000个STS及联系作图的信息；另外还有突变序列的数据库在建立之中。

在各类数据库建立的同时,数据库设计中出现了集成化趋势,集成化包括：

各类数据的集成、数据库与数据分析软件的整合。

各种数据库分析、测序应用软件包也被开发出来。

[11]

除了数据库、数据分析软件的发展,生物信息学中比较基因组学的发展也较为突出。

其中河豚、鼠、猪、牛和马的基因组与人基因组的比较研究,秀丽隐杆线虫与人基因组的比较研究、酵母与人基因组的比较研究,支原体与嗜血流感杆菌基因组的比较研究,都取得了成果,从比较中分离到一些人类遗传病的候选基因,鉴定了一些新克隆的基因,为人类基因组的分析提供了有益的数据。

随着计算机技术的发展和渗透,生物信息学在人类基因组中大规模测序的自动化控制、测序结果分析处理、序列数据的计算机管理、各类遗传图谱、物理图谱的绘制、研究数据网络获取、分析和交换,以数据分析的结果辅助基因组研究等都发挥着不可替代的功能,显示出越来越重要的作用。

全长cDNA序列man的生物信息学分析

前言

随着因特网在上世纪90年代的出现和信息技术的迅猛发展。

生命科学也相伴走向信息化，其主要标志就是人类基因组计划的实施，这一计划及其相继展开的众多的基因组计划使得生物学数据急剧增加，而传统的实验手段却远远不能满足对这些数据的解释，使之上升到科学知识的高度[9-10]。

随着人类基因组计划的实施,分子生物学家提供了大量的有关生物分子的数据,如何将这些从实验室中取得的生物信息进行整理,,并能对以后的研究提供资料和依据,这就需要运用到现代计算机技术对这些原始数据进行收集,整理和分析,从而是人们在研究过程中及时得到有效的生物信息.因此,生物信息学不仅是一门学科,也是研究过程中的一项技术和开发工具.核酸序列分析是生物信息学应用中的一个重要方面.DNA序列分析可分两大类:

1.面向测序的DNA序列分析;2.指定DNA序列的分析.通过一个简单序列相似性的比较可以对未知序列进行初步的功能预测,对后续实验确定初步研究方向[12]。

本论文通过对从真菌Ａ．tabescens中克隆出一个基因的全长cDNA进行生物信息的分析，预测这个未知cDNA的功能．

目前因特网上有许多生物学信息库，采用不同的算法，对生物学数据进行从序列水平到结构层次，进而到功能的多种分析。

本章的分析主要利用这些数据库和相关软件完成。

材料和仪器

（1）生物技术实验室从一株产ß-甘露聚糖酶的新菌种A.tabescensEJLY2098克隆出一个全长cDNA（命名为man）

（2）可以连接国际互联网的计算机

核酸序列的基本分析

运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。

同时运用BioEdit（版本7.0.5.3）软件对man做酶切谱分析。

碱基同源性分析

运用NCBI信息库的BLAST程序对man进行碱基同源性分析（Translatedqueryvs.protiendatabase（blastx））

网站如下：

http:

//www.ncbi.nlm.nih.gov/BLAST/

参数选择：

Translatedquery-proteindatabase[blastx]；nr;stander1

开放性阅读框（ORF）分析

利用NCBI的ORFFinder程序对man做开放性阅读框分析，网址如下：

http:

//www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi

参数选择：

GeneticCodes：

1Standard

对蛋白质序列的结构功能域分析

运用简单模块构架搜索工具（SimpleModularArchitectureResearchTool,SMART）对manORF出的蛋白质序列进行蛋白质结构功能域分析。

该数据库由EMBL建立，其中集成了大部分目前已知的蛋白质结构功能域的数据。

[12]

网址如下：

http:

//smart.embl-heidelberg.de/

运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析

参数选择：

SearchDatabase：

CDDv2.07－11937PSSMs

Expect：

0.01

Filter：

Lowcomplexity

Searchmode：

multiplehits1－pass

同源物种分析

用DNAMAN软件将蛋白质序列与GHF5的ß-甘露聚糖酶序列和GHF6的ß-甘露聚糖酶序列序列比对，根据结果绘出系统进化树，并进行分析。

蛋白质一级序列的基本分析

运用BioEdit（版本7.0.5.3）软件对manORF翻译的蛋白的一些基本性质，对分子量、等电点、氨基酸组成等作出分析。

二级结构和功能分析

信号肽预测

利用丹麦科技大学（DTU）的CBS服务器蛋白质序列的信号肽（signalpeptide）预测，进入PredictionServes页面。

网址如下：

http:

//www.cbs.dtu.dk/services/SignalP/

参数选择：

Eukaryotes；Both；GIF（inline）；Standard；

疏水性分析

利用瑞士生物信息学研究所（SwissInstituteofBioinformatics，SIB）的ExPASy服务器上的ProtScale程序[13]对ORF翻译后的氨基酸序列做疏水性分析

网址如下：

http:

//us.expasy.org/cgi-bin/protscale.pl

参数选择：

Hphob./Kyte&Doolittle

蛋白质溶解能力和PROSITEmotifsearch的分析

利用美国哥伦比亚大学（ColumbiaUniversity）的PredictProtein服务器（PHD）[14]对ORF翻译后的氨基酸序列通过发邮件的方式获得蛋白质溶解能力和PROSITEmotifsearch分析的结果。

网址如下：

http:

//cubic.bioc.columbia.edu/pp/submit_def.html

磷酸化位点分析

磷酸化和去磷酸化是细胞内信号传导的重要方式，利用丹麦科技大学（DTU）的CBS服务器上的NetPhos2.0Server程序[15]

做磷酸化位点分析。

NetPhos2.0Server程序是基于神经网络算法，对蛋白序列中的Ser、Thr和Tys三种氨基酸残基可能成为的磷酸化位点作出预测，

网址如下：

http:

//www.cbs.dtu.dk/services/NetPhos/

跨膜区分析

蛋白质序列含有跨膜区提示它可能作为膜受体起作用，也可能是定位于膜的锚定蛋白或者离子通道蛋白等，从而，含有跨膜区的蛋白质往往和细胞的功能状态密切相关。

[12]利用丹麦科技大学（DTU）的CBS服务器上的TMHMMServerv.2.0程序进行蛋白序列跨膜区分析。

网址如下：

http:

//www.cbs.dtu.dk/services/TMHMM/

参数选择：

Extensivewithgraphics

亚细胞定位

通过WoLFPSORT工具基于其氨基酸序列预测蛋白质亚细胞定位点

网址如下：

http:

//wolfpsort.seq.cbrc.jp/

参数选择：

Fungi；FromTextArea

二硫键分析

运用scratchproteinPredictor对蛋白质的二硫键做出分析。

网址如下：

http:

//www.ics.uci.edu/~baldig/scratch/index.html

参数选择：

Dlpro（DisulfideBonds）

二级结构预测

运用PBILLYON-GERLAND信息库对蛋白质序列进行二级结构预测（Secondarystructureprediction），主要用Hopfield神经网络（HNN）预测。

网址如下：

http:

//npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?

page=/NPSA/npsa_hnn.html

讨论与结果

从一株产ß-甘露聚糖酶的新菌种A.tabescensEJLY2098获得的全长cDNA序列如下：

ACGCGGGGGAAAGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGCGTTCGCTGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGGAACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTCTCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATACTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGCGGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGGGATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAATTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAACTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGcaaatgaacctagatgcaaggggagtaccgggacgacctctggatcatgcactgcaacgactatcacaaaATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATATCAAGGTAGCGAAGGTATCGATTTTGATGCAAATttggccattagtagcattgatttcggtacattccattcctatcctatcagctggggtcaaaccactgatcctCAGGGATGGGGTACGCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAATCTtagaggagtttggagtcaccactaatcaagcaactgtttatggcgcctggtatcaggaagttgtctcttcgggtcttactggtgctcttatttggcaagctggttcttatttatcatccggagctactccggacgacggatatgcaatttatcctgatgatcctgtatattccctggaaacctcctatgcggttacattgaaagcgcgggcgtaggatagggtacagaataaattttgctccgatgtggtactgtagccgagcggcttgactatgtgaataaaaatagcactgttgtcacgatcgatcaacacctaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

核酸序列的基本分析

核酸序列的基本分析结果如下：

SEQNew:

1483bp;

Composition388A;358C;351G;386T;0OTHER

Percentage:

26.2%A;24.1%C;23.7%G;26.0%T;0.0%OTHER

MolecularWeight（kDa）:

ssDNA:

457.73dsDNA:

914.24

ORIGIN

1ACGCGGGGGAAAGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGC

61GTTCGCTGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCAC

121TTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGG

181AACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTC

241TCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTAC

301CTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATA

361CTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGC

421GGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGG

481GATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCT

541TCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGC

601CATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAATTGTCGG

661GTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAA

721CTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCT

781TGCAAATGAACCTAGATGCAAGGGGAGTACCGGGACGACCTCTGGATCATGCACTGCAAC

841GACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCA

901TCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATA

961TCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTAGCATTGATTTCGG

1021TACATTCCATTCCTATCCTATCAGCTGGGGTCAAACCACTGATCCTCAGGGATGGGGTAC

1081GCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAATCTTAGA

1141GGAGTTTGGAGTCACCACTAATCAAGCAACTGTTTATGGCGCCTGGTATCAGGAAGTTGT

1201CTCTTCGGGTCTTACTGGTGCTCTTATTTGGCAAGCTGGTTCTTATTTATCATCCGGAGC

1261TACTCCGGACGACGGATATGCAATTTATCCTGATGATCCTGTATATTCCCTGGAAACCTC

1321CTATGCGGTTACATTGAAAGCGCGGGCGTAGGATAGGGTACAGAATAAATTTTGCTCCGA

1381TGTGGTACTGTAGCCGAGCGGCTTGACTATGTGAATAAAAATAGCACTGTTGTCACGATC

1441GATCAACACCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

对其所做对其所做的酶切谱分析结果如下：

1对DQ286392的酶切图（见附录1）

2单酶切统计，见下表：

Restrictiontable:

EnzymeRecognitionfrequencyPositions

__________________________________________________________________________

AccIGT'mk_AC2258,640

AloIGAACnnnnnnTCCnnnnnnn_nnnnn'1632

AloIGGAnnnnnnGTTCnnnnnnn_nnnnn'1600

AlwIGGATCnnnn'n_5833,885,1056,1095,1290

ApoIr'AATT_y3333,992,1368

BanIG'GyrC_C4327,348,429,1179

BbeIG_GCGC'C2352,1183

BbsIGAAGACnn'nnnn_1531

BbvIGCAGCnnnnnnnn'nnnn_753,156,551,554,557,560,1103

BceAIACGGCnnnnnnnnnnnn'nn_3199,211,540

BcgICGAnnnnnnTGCnnnnnnnnnn_nn'31003,998,1294

BcgIGCAnnnnnnTCGnnnnnnnnnn_nn'3969,1032,1260

BclIT'GATC_A11094

BfrBIATG'CAT117

BglIGCCn_nnn'nGGC191

BmrIACTGGGnnnn_n'1371

BpuEICTTGAGnnnnnnnnnnnnnn_nn'1605

BsaHIGr'CG_yC2349,1180

BsaJIC'CnnG_G2859,1309

BsaWIw'CCGG_w3501,1254,1265

BsaXIACnnnnnCTCCnnnnnnn_nnn'1215

BsaXIGGAGnnnnnGTnnnnnnnnn_nnn'1185

BseMIICTCAGnnnnnnnn_nn'330,67,1080

BseRIGAGGAGnnnnnnnn_nn'11155

BseYIC'CCAG_C11045

BsgIGTGCAGnnnnnnnnnnnnnn_nn'1559

BsiEICG_ry'CG3199,889,1440

BsiHKAIG_wGCw'C257,1223

BslICCnn_nnn'nnGG481,449,963,1272

BsmAIGTCTCn'nnnn_340,743,1205

BsmBICGTCTCn'nnnn_1743

BsmFIGGGACnnnnnnnnnn'nnnn_1827

Bsp1286IG_dGCh'C257,1223

BspCNICTCAGnnnnnnn_nn'331,68,1079

BspEIT'CCGG_A3501,1254,1265

BsrIACTG_Gn'4290,366,618,1220

BsrBICCG'CTC2201,1399

BsrDIGCAATG_nn'11089

BstF5IGGATG_nn'4108,6

展开阅读全文