分子生物学信息中心及其数据库.docx

上传人:b****0 文档编号:17644790 上传时间:2023-07-27 格式:DOCX 页数:9 大小:22.82KB
下载 相关 举报
分子生物学信息中心及其数据库.docx_第1页
第1页 / 共9页
分子生物学信息中心及其数据库.docx_第2页
第2页 / 共9页
分子生物学信息中心及其数据库.docx_第3页
第3页 / 共9页
分子生物学信息中心及其数据库.docx_第4页
第4页 / 共9页
分子生物学信息中心及其数据库.docx_第5页
第5页 / 共9页
分子生物学信息中心及其数据库.docx_第6页
第6页 / 共9页
分子生物学信息中心及其数据库.docx_第7页
第7页 / 共9页
分子生物学信息中心及其数据库.docx_第8页
第8页 / 共9页
分子生物学信息中心及其数据库.docx_第9页
第9页 / 共9页
亲,该文档总共9页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

分子生物学信息中心及其数据库.docx

《分子生物学信息中心及其数据库.docx》由会员分享,可在线阅读,更多相关《分子生物学信息中心及其数据库.docx(9页珍藏版)》请在冰点文库上搜索。

分子生物学信息中心及其数据库.docx

分子生物学信息中心及其数据库

分子生物学信息中心及其数据库

生物分子数据库可以分成一级数据库和二级数据库两大类:

一级数据库:

数据库中的数据直接来源于实验获得的原始资料,只经过简单的归类整理和注释。

二级数据库:

对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

世界上主要的分子生物学信息中心与它们的数据库介绍:

现阶段建立的分子数据库种类繁多,内容广泛;并且随着网络技术的普及,分子生物学信息系统大都实现了网络化;数据库中的信息量也呈爆炸性的增长;数据库的相关数据操作算法也不断增加。

随着分子生物学实验的高速增长和分子生物学及相关领域研究人员迅速获得最新实验数据,迫切需要建立一些生物分子的数据库。

1、欧洲分子生物学实验室EMBL

欧洲分子生物学实验室EMBL(TheEuropeanMolecularBiologyLaboratory)于1974年由欧洲14个国家加上亚洲的以色列共同建立,包括一个核心实验室——德国的Heidelberg实验室,三个研究分部——德国的Hamburg,法国的Grenoble及英国的Hinxton。

由于有开发和创新的良好的学术氛围,已发展成欧洲最重要和核心的分子生物学基础研究机构。

其研究主要集中在以下几个方面:

-生化实用技术质谱分析(MassSpectrometry)等。

-细胞生物学(CellBiology),研究细胞膜上蛋白和脂肪的分布系统,包括膜运输、微管网络、细胞核及细胞周期,焦点是Rab蛋白。

-细胞生物物理(CellBiophysics)重点是理论创新和实际应用的结合研究,尤其是光学显微镜的完善使用。

-分化(Differentiation)集中研究果蝇的早期发育。

-基因表达(GeneExpression),研究基因信息传递到蛋白质信息的过程,尤其是核糖体合成在整个细胞生命过程中的重要作用。

-结构生物学(StructureBiology),在过去9年中建立了cDNA测序技术,生物计算,蛋白工程、晶体学、电子显微镜(EM)及核磁共振(NMR),研究分子是肌肉巨型蛋白分子Titin。

-Grenoble研究分部,主要研究蛋白质合成过程,尤其揭示了G-蛋白-鸟苷酸交换因子,偶联物的结构。

-Hamburg研究分部,有关长期的分子生物学国际合作研究历史,着重于结构生物学研究,如光学测系统、晶体学、X-线吸收光谱及小角散射。

-Hinxton研究分部EBI(EuropeanBioinformaticsInstitute,欧洲生物信息学研究所),重点是与世界上其他分子生物学数据库进行合作研究,最主要的有EMBL核酸序列数据库,于1980年开始建立,随后参与了与日内瓦大学共同进行的SWISS-PROT的建设。

在SWISS-PROT与EMBL核酸序列库之间的数据转移的基础上,产生了新的数据库TREMBL(TranslationfromEMBL),即使核苷酸序列库的核苷酸序列自动翻译成SWISS-PROT蛋白质列库中的蛋白序列。

另外建立了放射性杂交数据库(RadiationHybridDatabase)。

-Monterotondo研究中心组EMBL和欧洲其他研究组一起,加入到哺乳类生物学和生物医学的研究行列,中心位于意大利罗马北部的Monterotondo。

EMBL着重于鼠遗传学研究。

EMBL的主页:

http:

//embl-heidelberg/ExternalInfo/public_relation/contents.html。

EMBL的数据库主要是EMBL-EBI,EBI是一个非盈利的学术机构,它是EuropeanMolecularBiologyLaboratory(EMBL)。

EMBL是一个国际级的研究机构,由15个国家提供经费,共同致力于分子生物学研究。

网络对分子生物学与生物信息学有很巨大的影响,EBI大部分的信息服务都是经由国际互联网完成的。

EBI发展与提供的主要分子生物信息数据库服务有:

a.EMBL核酸序列数据库;

b.TrEMBL与SWISS-PROT蛋白质序列数据库;

c.储存生物大分子3-D坐标资料的大分子结构数据库(EBI-MSD);

d.辐射杂交图谱Hdb数据库(http:

//corba.ebi.ac.uk/RHdb).

EBI最早成立于1980年,最初是放在德国的,后来,将它移动到英国去了。

EBI的网址是:

http:

//www.ebi.ac.uk/embl/。

2、美国国立生物技术信息中心NCBI

美国参议员Claude Pepper在当时意识到信息计算机化过程方法对指导生物医学研究的重要性,所以1988年11月4日提出了建立国立生物技术信息中心(NCBI,NationalCenterforBiotechnologyIn-formation)的立法。

NCBI是在NIH的国立医学图书馆(NLM)的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

它的使命包括四项任务:

a.建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统;

b.实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究‘

c.加速生物技术研究者和医药治疗人员对数据库和软件的使用;

d.全世界范围内的生物技术信息收集的合作努力。

NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算机分子生物学的基本的和应用的研究。

这些研究者不仅仅在基础科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。

他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。

这些问题包括基因的组织,序列的分析,和结构的预测。

目前研究计划的一些代表是:

检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估的数学模型,和文本检索的矢量模型。

NCBI的主要数据库是GeneBank,它由美国卫生与人类服务部注册。

该项目在上世纪80年代由美国的IntelliGenetics(IG)公司和LOSAlamos国家实验室(LANL)共同资助及组织实施。

随后得到美国国立卫生研究院(NIH)等单位的资助。

NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。

同美国专利和商标局的安排使得专利的序列信息也被整合。

GeneBank以指数形式增长,核酸碱基数目大概每14个月就翻一个翻。

最近,GeneBank拥有来自47000个物种的30亿个碱基。

Entrez是NCBI的为用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。

Entrez同时也提供序列和染色体图谱的图形视图。

Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。

这些数据库包括核酸序列,蛋白序列,大分子结构,全基因组,和通过PubMed检索的MEDLINE。

Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力。

杂志文献通过PubMed获得,EnterZ是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文章。

3、日本国立遗传研究所NIG

日本国立遗传研究所(NIG,NationalInstituteofGenetic)作为一所日本国内进行遗传多样性研究的中央研究机构始建于1949年。

在1984年,它被重组成为一个各所大学共同利用的校际的研究所从而大大提升了它与大学间的协作。

从1988年开始,国立遗传研究所开始参加一些学校的研究生培养工作。

同时,国立遗传研究所还逐渐成为日本国内遗传学(如突变研究、克隆,致病菌等)的信息资源中心,而且,还是著名的核酸数据库DDBJ的开发与维护单位。

它的主页:

http:

//www.nig.ac.jp/section/index.html

日本国立遗传研究所中最著名的数据库当属于DDBJ(DNADataBankofJapan),它的主页是:

http:

www.ddbj.nig.ac.jp/。

与GeneBank和EMBL核酸库合作交换数据。

可以使用其主页上提供的SRS工具进行数据检索和序列分析。

可以用Sequin软件向该数据库提交序列。

DDBJ主要负责亚洲地特别是日本国的核酸数据收集。

它与GeneBank和EBL在每天都会交换数据,以保持三者的数据库是一致的。

4、基因组数据库GDB

基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。

GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其他对功能和表型的描述。

目前GDB中有:

人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoints、细胞遗传标记cytogeneticmarkers、易碎位点fragilesites、EST序列、综合区域syndromicregions、contig和重复序列);人类基因组图谱(包括细胞遗传图谱、链接图谱、放射线杂交图谱、contentcontig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。

GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱。

GDB的网址是:

http:

//www.gdb.org

5、PIR和PSD

PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。

这个一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142000条蛋白质序列(至1999年3月),其中包括来自几十个完整基因组的蛋白质序列。

所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。

PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便地检索。

每季度都发行一次完整的数据库,每周可以得到更新部分。

PSD数据库由几个辅助数据库,如基于超家族的非冗余库等。

PIR提供三类序列搜索服务;基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。

PIR和PSD的网址:

http:

//pirgeorgetown.edu

6、PROSITE数据库

PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。

PROSITE数据库是第一个蛋白质序列二次数据库,90年代初期开始构建,现由瑞士生物学信息学研究所SIB维护(Hofmann等,1999)。

PROSITE数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这样区域通常与生物学功能有关,例如酶的活性位点,配体或金属结合位点等。

因此,PROSITE数据库实际上是蛋白质序列功能位点数据库,通过对PROSITE数据库的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。

PROSITE数据库实际上包括两个数据库文件,一个为数据文件即PROSITE,该文件给出了能进行匹配的序列及序列的详细信息。

另一个为说明文件PROSITEDoc,PROSITEDoc说明文件中给出该序列模式的生物学功能及其文献资料来源。

PROSITE数据库使用正则表达式来表示序列模式,例如:

[GSK]-F-x

(2)-[LIVMMF]-x(4)-[RKEQA]-x

(2)-[RST]-x-[GA]-x-[KN]-P-x-T。

这里,方括号中为可选残基,如第一个方括号[GSK]中3个残基中甘氨酸G、丝氨酸S和赖氨酸L中的任意一个均可出现,x

(2)表示可以有两个任意残基。

因此,序列片段GFxxLxxxxRxxRxGxKPxT是其中一种可能的模式。

PROSITE数据库基于多序列比较得到的单一保守序列片段,或称序列模体。

PROSITE的网址:

http:

//www.expasy.ch/prosite/

7、PDB

早在序列数据库诞生之前的70年代,蛋白质结构数据库(ProteinDataBank,简称PDB)就已经问世。

PDB数据库原来由美国Brookhaven国家实验室负责维护和管理。

为适应结构基因组和生物信息学研究的需要,1998年,由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(ResearchCollaboratoryforStructuralBioinformatics,简称RCSB)。

PDB数据库改由RCSB管理(BermanHM,2000),目前主要成员为Rutger大学、圣地亚哥超级计算中心(SanDiegoSupercomputerCenter,简称NIST)。

和核酸序列数据库一样,可以通过网络直接向PDB数据库递交数据。

PDB是目前最主要的蛋白质分子结构数据库。

随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。

90年代以来,多维核磁共振溶液构象测定方法的成熟,是那些难以结晶的蛋白质分子的结构测定成为可能。

蛋白质分子结构数据库的数据迅速上升。

据2000年5月统计,PDB数据库中已经存放了1万2千多套原子坐标,其中大部分为蛋白质,包括多肽和病毒,共一万多套。

此外,还有核酸、蛋白质和核酸复合物以及少量多糖分子。

近年来,核酸三维结构测定进展迅速,PDB数据库中已经收集了800多套核酸结构数据。

PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。

除了原子坐标外,还包括物种来源、化合物名称、结构递交者以及有关文献等基本注释信息。

此外,还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。

PDB数据库以文本文件格式存放,可以用文字编辑软件查看。

显然,用文字编辑软件查看注释信息不太方便,更无法直观地了解分子的空间结构。

RCSB开发的基于Web的PDB数据库概要显示系统,只列出主要信息。

如需进一步了解详细信息,或查询其他蛋白质结构信息资源,可点击该页面左侧窗口中的按钮。

此外,英国伦敦大学开发的PDBsum数据库(Laskowski等,1997)是基于网络的PDB注释信息综合数据库,用于对PDB数据库的检索,使用十分方便。

并将RasMol、CN3D等分子图形软件综合在一起,同时具有分析和图形显示功能。

必须指出的是,与EMBL和PIR等序列数据库一样,结构数据库PDB也属于一次数据库,其中包括许多冗余数据,乃至错误。

PDBCheck合作研究组对PDB数据库进行了全面的检验,并把结果存放在PDBReport数据库中,用户在使用PDB数据库中的某个文件时,可先查阅该数据库。

RCSB的PDB数据库网址是:

http:

//www.rcsb.org/pdb

8、KEGG

KEGG为JapaneseGenomeNetservice(http:

//www.genome.ad.jp/)的原始数据库来源,其数据库可分为六类;目前Ⅰ、Ⅱ、Ⅲ为主要的三大数据库,Ⅳ、Ⅴ则数据量有限,另有一命名为SSDB的数据库:

(Ⅰ)GENESdatabase:

提供genes与籍由genomesequencing所产生的proteins相关信息。

(Ⅱ)PATHWAYdatabase:

提供分子间交互作用网络的计算机化信息,例如:

pathway与complex,其中包括:

Enzyme-enzymerelation:

在新陈代谢路径中enzyme-enzyme相关性。

Protein-proteininteraction:

例如binding或磷酸化等。

Geneexpressionrelations:

包括transcriptionfactors与targetgeneproducts.

(Ⅲ)LIGANDdatabase:

提供与cellularprocesses关系重大的化学物质与化学反应相关信息。

(Ⅳ)EXPRESSIONdatabase:

储存由microarrygeneexpression

profiles所得到的实验数据。

(Ⅴ)BRITEdatabase:

储存由yeasttwo-hybridsystems所得到的实验数据

(Ⅵ)SSDBdatabase:

探究在完整的基因体中所有的proteincodinggene,并且提供功能联结以及orthologgroup的确认;此外,在orthologgrouptable上具有图谱类似性(graphsimilarities)的相关群组,可用以预测一组基因的产物是否参与pathway或形成complex;而且在SSDB图谱中所得到的结果将被用于基因批注。

总之,KEGG的主要特色在于计算机化处理数据与信息,并不是以文字型式而是以图谱信息型式呈现并运算;另外,就序列与3D结构而言,KEGG互补与其他数据库而专注在呈现genes或proteins的相互作用与相互关系之较高层次信息;最重要的是,KEGG数据库每日更新且免费提供使用。

KEGG网址:

http:

//www.geneme.ad.jp/kegg/

从上面所介绍的几种常见的数据库,我们可以发现分子生物学的数据库有以下几点共性:

(1)数据库的更新速度不断加快,数据量呈指数增长趋势;

(2)数据库使用频率增长更快

(3)数据库的复杂程度不断增加

(4)数据库网络化

(5)面向应用

(6)先进的软硬件配置

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2