基于基因组学的日本血吸虫序列分析平台的构建及应用.docx
《基于基因组学的日本血吸虫序列分析平台的构建及应用.docx》由会员分享,可在线阅读,更多相关《基于基因组学的日本血吸虫序列分析平台的构建及应用.docx(7页珍藏版)》请在冰点文库上搜索。
基于基因组学的日本血吸虫序列分析平台的构建及应用
基于基因组学的日本血吸虫序列分析平台的构建及应用
刘稳升,胡斐,吕志跃,郑焕钦,袁衡新,吴忠道
【摘要】【目的】构建基于基因组学的日本血吸虫序列分析平台。
【方式】基于工作站和Linux操作系统,利用公布的日本血吸虫或相关资源,搜集有关生物信息学序列分析工具,并自行编写相关软件实现多种资源的有机整合。
【结果】构建了本地化的日本血吸虫序列分析平台,在此基础上,自主设计了日本血吸虫EST序列的电子延伸系统、基于日本血吸虫EST数据库的同源全长cDNA序列检索系统和序列自动注释系统等。
【结论】所构建的序列分析平台不仅能够完成常规的序列分析工作,还可成功地完成EST序列的电子延伸,同源全长cDNA序列的检索和序列的自动注释,它可对大规模日本血吸虫序列进行快速、方便、高效的分析,为充分利用血吸虫基因组开展疫苗研究和新药开发提供了有效的技术手腕。
【关键词】日本血吸虫;基因组;序列分析系统
[JSUNYat-senUniv(MedSci),2007,28(3):
348-352]继人类基因组打算(HumanGenomeProject,HGP)以后,血吸虫基因组打算(SchistosomeGenomeProject,SGP)于1992年正式启动,并取得了美国基因组研究所(TheInstituteforGenomicResearch,TIGR)的技术支持,1994年WHO/UNDP/TDR和多个国家的实验室参与了此项打算,其最终目标是找到新的候选疫苗分子和医治药物和完全的基因组图谱。
1999年,在WHO/WordBank/UNDP血吸虫基因组网络会议上,确信了WHO资助SGP的要紧内容,包括曼氏血吸虫新基因的发觉、日本血吸虫新基因的发觉、物理图谱的制作、cDNA微型矩阵的制作、线粒体基因的测序和生物信息学的研究,也确信了以后80%的TDR基因组资助奖金将用于后基因组打算。
通过量年的尽力,在cDNA文库、EST序列分析、基因不同表达的研究、基因组文库和基因组图谱、血吸虫信息学和数据库治理等多方面取得了重要进展[1-3]。
目前,WHO血吸虫基因组协作组是最普遍的国际合作组织之一,其成员国美国、英国、埃及、巴西等多参与曼氏血吸虫基因研究打算,而中国重点开展日本血吸虫基因组的研究工作,研究单位包括中国南方基因组中心,中国疾病预防操纵中心寄生虫病预防操纵所和中山大学中山医学院等。
最近,我国在日本血吸虫功能基因组和蛋白质组的工作取得了时期性重大功效[4]。
2006年5月17日,上海市生命科学与生物技术数据中心向全世界发布了由我国自主测序的日本血吸虫基因组工作框架图,共计300多万条的DNA序列[5],为全世界科学工作者提供效劳。
由于血吸虫基因组打算的实施,综合利用现时期的大量生物信息,并从中快速挖掘有效信息,应用于血吸虫病的免疫诊断、疫苗研发和新药靶点挑选等已成为可能。
为此,本课题组在前期工作基础上,开展了本项研究工作,旨在有力推动我国血吸虫病的科学研究和防治技术创新。
1材料与方式
工作站的配置
硬件配置工作站为DELLPrecisionworkstation670,处置器为双Intel?
誖XeonTM,主频GHz,内存为DDRDRAMG,硬盘为SATA146G。
软件配置操作系统为RedHatEnterpriseLinuxAS4;应用软件包括Apach网络效劳器,MySQL网络数据库系统,Perl和PHP等相关软件。
核酸及蛋白质序列数据库
通过互联网访问公布数据库,在许可的条件下下载数据信息,并进行相关的解紧缩、安装,构建序列分析的本地化数据库。
现将本实验室搜集的要紧序列分析数据库列表如表1。
核酸及蛋白质序列分析工具
通过互联网,下载相关基于GNU通用许可证(GPL)的,可免费利用的生物信息学分析软件或通过与软件作者联系,取得相关的软件,应用于学术研究。
本实验平台所安装的软件要紧包括综合序列分析软件包Stadenpackage[7],EMBOSS[8];两序列比对分析软件包BLAST[9],FASTA[10];多序列比对软件包ClustalW[11],DIALIGN-T[12];序列组装拼接软件Phrap,CAP3[13];重复序列屏蔽工具RepeatMasker[14];基因预测软件GenScan[15];序列进化分析软件Phylip[16];综合蛋白序列分析平台InterProScan[17]。
自主设计三大序列分析系统
日本血吸虫EST序列的电子延伸系统构建该系统所需的生物信息学相关软件包括:
同源性检索的Blast软件包,序列类组装拼接的Phrap软件包或CAP3拼接程序,数据库采纳日本血吸虫数据库。
系统设计方式数据流图如图1。
基于日本血吸虫EST数据库的同源全长cDNA序列检索系统构建该系统所需的生物信息学相关软件包括:
电子延伸系统的所需软件,如有需要还能够对待分析的序列进行预处置,包括载体序列的去除(Phrap软件包中cross-match)和重复序列的屏蔽(RepeatMasker)。
系统设计数据流图如图2。
序列自动注释系统的构建构建该系统所需的生物信息学相关软件包括:
Blast软件包,InterProScan软件包(包括HMMPfam,scanregexp,blastprodom等15个数据库检索或序列分析的程序),相关的数据库包括非冗余蛋白质序列数据库(nr),非冗余核酸序列数据库(nt),和Interpro平台数据库[17,18](包括PROSITE、PRINTS、Pfam、Gene3D、PANTHER、ProDom和Smart等10多个数据库的内容,涵盖了UniprotK数据库中蛋白质序列的%)()。
系统设计数据流图如图3。
2结果
日本血吸虫序列分析平台实现的大体功能
由表1的数据资源和所列的生物信息学分析工具搭建的序列分析平台,可完成大多数日本血吸虫序列分析的常规任务(具体可参考相关安装软件的利用文档,说明书或参考文献)。
包括数据库的相似性搜索(包括非冗余核酸和蛋白质数据库,和日本血吸虫EST,基因组等数据库)、序列的比对(两两比对或多重比对)、蛋白质或核酸motif,pattern等的分析、分子进化树的构建、密码子利用频率分析、B淋巴细胞抗原表位的预测、PCR引物的设计、蛋白质二级结构的预测、蛋白质信号肽的预测、计算蛋白质的等电点和相对分子量、酶切位点的识别、绘制质粒图谱、测序峰图的阅读、序列片段的组装拼接,开放读码框的预测或基因结构的预测、GO分类等。
日本血吸虫EST序列的电子延伸系统的组成与应用
此系统要紧由相似性序列检索模块、序列拼接模块、种子序列挑选模块三部份组成,其中相似性序列检索模块完成日本血吸虫EST数据库中相似性序列的检索,序列拼接模完成相似性EST序列的拼接工作,种子序列挑选模块那么是挑选出序列拼接模块结果中生成的包括有种子序列的contigs。
最后系统判定是不是对种子序列进行了一次有效的延伸。
通过对本实验组取得的552条EST进行电子延伸和自动分析,显示487条取得不同程序的延伸,其中延伸比例超过100%的有251条,延伸前EST平均长度552bp(中位数),延伸后序列平均长度931bp(中位数),延伸效率为%。
将延伸后序列对非冗余蛋白质序列数据库(nr)进行检索,可取得更多参考信息[19-21]。
基于日本血吸虫EST数据库的同源cDNA序列检索系统的组成与应用
此系统要紧由相似性序列检索模块、序列拼接模块、文件拆分模块、电子延伸模块四部份组成。
其中相似性序列检索模块要紧完成日本血吸虫EST数据库中与感爱好序列相似的EST的检索,序列拼接模完成相似性EST序列的电子拼接,文件拆分模块完成对电子拼接后生成的contigs和singlets文件拆分为单序列文件。
电子延伸模块那么对上面生成的单序列文件中的序列作为种子序列,进行电子延伸,取得假想的全长cDNA。
以已知的人类信号转导分子序列2226条作为种子序列,对所建的系统进行测试,同时取得相关的生物学信息。
分析结果显示:
待分析的2226条人类信号转导分子cDNA序列中,有202条序列能够在血吸虫的EST数据库中能够找到同源性的序列,将所得同源性序列电子拼接后所得的序列进行电子延伸后,大部份可延伸一次,也有的能够延伸10多次,最终取得假想的全长cDNA515条。
将它们对所建的日本血吸虫cDNA数据库进行检索,以E值10-20为标准,416条可找到相似性序列,其中217条与库中的相关序列相似性极高,E值为。
另外有99条可能包括未知的基因,有待进一步研究。
目前,本课题组正在对可能成心义的基因进行生物学验证。
序列自动注释系统的组成与应用
此系统要紧由nr检索模块、nt检索模块和InterPro检索平台三部份组成。
其nr检索模块要紧完成对待分析序列在非冗余蛋白序列数据库中相似性序列的检索,nt检索模块要紧完成对待分析序列在非冗余核酸序列数据库中相似性序列的检索,InterPro检索平台那么是由InterProScan程序完成待分析序列在InterPro数据库中的相似性检索,三者都将相关信息赋与待分析序列,进行序列的注释。
对所成立的系统,本课题组已通过初步测试,对每一感爱好的序列进行注释,都可在非冗余蛋白质序列数据库,非冗余核酸序列数据库,InterPro数据库的检索中取得对应的结果文件,其结果显示,系统运行状态良好。
在此基础上,咱们还利用上面取得的515条日本血吸虫假想全长cDNA序列作为待注释的序列,进行结构和功能的分析,旨在取得其相关生物学信息,为血吸虫病疫苗候选分子及药物作用靶标的挑选提供进行生物学实验的依据。
3讨论
HGP初,美国科学家Venter等提出了用EST技术来进行基因组研究的假想,称为EST打算。
Adams[22]等第一次应用EST技术从人脑组织中取得了337个未知基因,在尔后的一年里,Adams[23]等继续进展了EST技术,开始大规模EST自动化测序,取得2375条EST序列,并将此技术从结构基因组学扩展到功能基因组学和比较基因组学。
尔后,利用EST进行基因的研究取得了飞速的进展,但EST自身的局限(仅代表一个完整基因的一部份,同时公共数据库中EST测序中存在错误等)及cDNA全长序列难以取得等问题,成了制约新基因发觉的瓶颈。
从生物信息学原理动身,基于公共数据库中的EST序列进行电子延伸,已成为众多研究者关注的核心。
目前虽可网上进行EST的电子延伸效劳,但在利用进程中存在数据平安,响应不及时等问题,因此,本实验组开展了本地化电子延伸系统的构建工作。
初步应用本平台已对本实验组取得的552条EST进行电子延伸,其中487条取得了不同程序的延伸。
同源全长cDNA序列检索系统为本课题组所特有,它可针对特定的序列,在日本血吸虫EST数据库中进行虚拟cDNA的查找,对发觉日本血吸虫相对应的基因起到了踊跃的作用,对2226条人类信号转导分子序列对日本血吸虫的EST数据库进行同源全长cDNA序列的检索,其中有202条序列能够找到同源性的序列,同时取得假想的全长cDNA515条,并对其进行注释,为日本血吸虫功能基因组及疫苗研究提供了有价值的信息。
本课题组利用公布软件及公共的生物信息学数据资源,成立本地化的日本血吸虫序列分析平台,作为连接生物信息学和实验生物学的桥梁。
通过反复的测试和大量数据分析,结果说明,利用公布资源成立的基于基因组学的日本血吸虫序列分析平台已构建成功。
【参考文献】
LOVERDEPT,HIRAIH,MERRICKJM,etal.Schistosomamansonigenomeproject:
anupdate[J].ParasitolInt,2004,53
(2):
183-192.
袁竹青,吴忠道.寄生虫基因组:
现状及以后展望[J].中国热带医学杂志,2003,3
(1):
121-124.
袁竹青,吴忠道.寄生虫基因组打算的启动[J].中国热带医学杂志,2003,3
(2):
230-232.
LIUF,LUJ,HUW,etal.Newperspectivesonhost-parasiteinterplaybycomparativetranscriptomicandproteomicanalysesofSchistosomajaponicum[J].PLoSPathog,2006,2(4):
e29.
曹玲.我科学家发布日本血吸虫“基因天书”[J].发明与创新,2006,7:
28.
HARRISMA,CLARKJ,IRELANDA,etal.TheGeneOntology(GO)databaseandinformaticsresource[J].NucleicAcidsRes,2004,32(Databaseissue):
D258-261.
STADENStadensequenceanalysispackage[J].MolBiotechnol,1996,5(3):
233-41.
RICEP,LONGDENI,BLEASBYA.EMBOSS:
theEuropeanMolecularBiologyOpenSoftwareSuite[J].TrendsGenet,2000,16(6):
276-277.
ALTSCHUL,STEPHENF,THOMASL,etal.GappedBLASTandPSI-BLAST:
anewgenerationofproteindatabasesearchprograms[J].NucleicAcidsRes,1997,25:
3389-3402.
MILLERPL,NADKARNIPM,CARRIERONM.ParallelcomputationandFASTA:
confrontingtheproblemofparalleldatabasesearchforafastsequencecomparisonalgorithm[J].ComputApplBiosci,1991,7
(1):
71-78.
THOMPSON,JD,HIGGINSDG,GIBSON,TJ.CLUSTALW:
improvingthesensitivityofprogressivemultiplesequencealignmentthroughsequenceweighting,positions-specificgappenaltiesandweightmatrixchoice[J].NucleicAcidsResearch,1994,22(22):
4673-4680.
SUBRAMANIANAR,WEYER-MENKHOFFJ,KAUFMANNM,etal.DIALIGN-T:
animprovedalgorithmforsegment?
鄄basedmultiplesequencealignment[J].BMCBioinformatics,2005,6:
66.
HUANGX,MADANA.CAP3:
ADNAsequenceassemblyprogram[J].GenomeRes,1999,9(9):
868-877.
BEDELLJA,KORFI,GISHW.MaskerAid:
aperformanceenhancementtoRepeatMasker[J].Bioinformatics,2000,16(11):
1040-1041.
BURGEC,KARLINS.PredictionofcompletegenestructuresinhumangenomicDNA[J].JMolBiol,1997,268
(1):
78-94.
RETIEFJD.PhylogeneticanalysisusingPHYLIP[J].MethodsMolBiol,2000,132:
243-58.
ZDOBNOVEM,APWEILERR.InterProScan-anintegrationplatformforthesignature?
鄄recognitionmethodsinInterPro[J].Bioinformatics,2001,17(9):
847-848.
APWEILERR,ATTWOODTK,BAIROCHA,etal.InterPro,progressandstatusin2005[J].NucleicAcidsRes,2005,33(Databaseissue):
D201-205.
刘翰腾,吴忠道,邹赛德,等.日本血吸虫EST序列的电子延伸及结果分析[J].中国寄生虫学与寄生虫病杂志,2004,22(4):
218-222.
邵筱,余新炳,吴忠道,等.日本血吸虫(大陆株)成虫表达序列标签的获取及电子延伸[J].中国地址病学杂志,2004,23(04):
297-299.
邵筱,吴忠道,刘翰腾,等.应用EST和电子克隆策略研究血吸虫表达基因谱[J].基础医学与临床,2005,25(7):
602-606.
ADAMSMD,KELLEYJM,GOCAYNEJD,etal.ComplementaryDNAsequencing:
expressedsequencetagsandhumangenomeproject[J].Science,1991,252(5013):
1651-1656.
ADAMSMD,DUBNICKM,KERLAVAGEAR,etal.Sequenceidentificationof2,375humanbraingenes[J].Nature,1992,355(6361):
632-634.