bioinformatics生物信息学文档格式.docx

上传人:b****1 文档编号:354360 上传时间:2023-04-28 格式:DOCX 页数:33 大小:51.94KB
下载 相关 举报
bioinformatics生物信息学文档格式.docx_第1页
第1页 / 共33页
bioinformatics生物信息学文档格式.docx_第2页
第2页 / 共33页
bioinformatics生物信息学文档格式.docx_第3页
第3页 / 共33页
bioinformatics生物信息学文档格式.docx_第4页
第4页 / 共33页
bioinformatics生物信息学文档格式.docx_第5页
第5页 / 共33页
bioinformatics生物信息学文档格式.docx_第6页
第6页 / 共33页
bioinformatics生物信息学文档格式.docx_第7页
第7页 / 共33页
bioinformatics生物信息学文档格式.docx_第8页
第8页 / 共33页
bioinformatics生物信息学文档格式.docx_第9页
第9页 / 共33页
bioinformatics生物信息学文档格式.docx_第10页
第10页 / 共33页
bioinformatics生物信息学文档格式.docx_第11页
第11页 / 共33页
bioinformatics生物信息学文档格式.docx_第12页
第12页 / 共33页
bioinformatics生物信息学文档格式.docx_第13页
第13页 / 共33页
bioinformatics生物信息学文档格式.docx_第14页
第14页 / 共33页
bioinformatics生物信息学文档格式.docx_第15页
第15页 / 共33页
bioinformatics生物信息学文档格式.docx_第16页
第16页 / 共33页
bioinformatics生物信息学文档格式.docx_第17页
第17页 / 共33页
bioinformatics生物信息学文档格式.docx_第18页
第18页 / 共33页
bioinformatics生物信息学文档格式.docx_第19页
第19页 / 共33页
bioinformatics生物信息学文档格式.docx_第20页
第20页 / 共33页
亲,该文档总共33页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

bioinformatics生物信息学文档格式.docx

《bioinformatics生物信息学文档格式.docx》由会员分享,可在线阅读,更多相关《bioinformatics生物信息学文档格式.docx(33页珍藏版)》请在冰点文库上搜索。

bioinformatics生物信息学文档格式.docx

生物电磁学与电磁生物学包括1、生物电磁:

生命活体在不同层次(电子、离子、原子、基因、细胞、组织、整体等)的活动和不同属性(包括思维、精神)活动时以及和外界环境(生命体周围直至宇宙)相互作用时反映出来的各种电磁信息。

2、人体的电磁辐射(包括发光):

频率、强度、频谱 

3、人体信号的调制方式:

调幅、调频、编码 

4、电磁生物学:

电磁辐射对生物体的影响 

5、电磁场导致DNA突变。

6、体内电、离、细胞等分布、极化状态变化导致疾病等。

视觉系统与光信息处理包括视网膜神经元回路与信息处理,彩色视觉及彩色图像的编码、变换机制,

眼动成象机制及宽视场、消色差动态成象系统,视觉认知机制及其图像信息的智能模式识别 

,不同状态立体视觉机制和静态、动态立体视锐度等。

脑和神经系统与信息包括:

脑的感知觉信息处理原理及其应用 

,学习、记忆、思维 

,逻辑思维和形象思维,思维模型与信息处理系统新原理的研究,新的计算模型、新型计算机如:

神经计算机等。

生物体结构与微光机电系统包括:

微光机电系统是当代科技前沿,人能制造出生物体的微细结构吗?

DNA驱动的微细机器人 

,生物大分子到细胞基本结构体系的自组装自组织 

,创造新物质的分子工程学研究 

,分子聚集体的化学 

等。

生物芯片、蛋白质芯片等等。

21世纪是生命科学的时代,也是信息时代。

随着人类基因组计划的实施,有关核酸、蛋白质的序列和结构数据呈指数增长。

面对巨大而复杂的数据,运用计算机管理数据、控制误差、加速分析过程势在必行。

从20世纪80年代末开始,生物信息学(Bioinformatics)逐渐兴起并蓬勃发展。

近年来,计算机和因特网的发展为生物信息的传递提供了硬件基础和便利。

一、生物信息学概述

  什么是生物信息学:

生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。

美国每年都要拨出相当大的经费支持生物信息学的发展。

日本的经济近年来虽然不甚景气,但发展科学技术的雄心却不见减弱,1998年用于发展基因组生物信息学技术的经费是1997年的533%。

广义地说,生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物学数据的一门学科。

首先是研究遗传物质的载体DNA及其编码的大分子蛋白质,以计算机为其主要工具,发展各种软件,对逐日增长的浩如烟海的DNA和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分析和研究,目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传语言,揭示人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供最合理和有效的方法或途径。

生物信息学已经成为生动医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设计、环境监测的重要组成部分。

生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。

它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。

其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达的结构与功能的生物信息。

目前基因组学的研究出现了几个重心的转移:

一是将已知基因的序列与功能联系在一起的功能基因组学研究。

二是从作图为基础的基因分离转向以序列为基础的基因分离。

三是从研究疾病的起因转向探索发病机理。

四是从疾病诊断转向疾病易感性研究。

生物芯片(Biochip)的应用将为上述研究提供最基本和必要的信息及依据,将成为基因组信息学研究的主要技术支撑。

生物信息学的发展为生命科学的进一步突破及药物研制过程革命性的变革提供了契机。

就人类基因组来说,得到序列仅仅是第一步,后一步的工作是所谓后基因组时代 

(post-genomeera) 

的任务,即收集、整理、检索和分析序列中表达的蛋白质结构与功能的信息,找出规律。

生物信息学将在其中扮演至关重要的角色。

二、生物信息学的研究范围

  大致可分三类:

  

(1)数据库的建立与优化。

国际上著名的公共数据库有genebank、swissport、PIR、PDB,另外一些公司还有内部数据库。

  

(2)培养生物信息学专业人员。

  (3)数据库的理论研究、软件的研制、序列的排列比较(alignment)、对新序列的识别与预测等。

三、意义及现状

  生物信息学的发展将会对生命科学带来革命性的变革。

它的成果不仅对相关基础学科起巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命。

  因此,各国政府和工业界对此极为重视,投入了大量资金。

欧美各国及日本相继成立了生物信息数据中心,如美国的国家生物技术信息中心、国家基因组资源中心、英国的欧洲生物信息研究所、日本的国家遗传学研究所等。

以西欧各国为主的欧洲分子生物学网络组织(EuropeanMolecularBiologyNetwork,EMBNet),是目前国际最大的分子生物信息研究、开发和服务机构,通过计算机网络使英、德、法、瑞士等国生物信息资源实现共享。

四、我国发展情况

  生物信息学是多学科的交叉产物,涉及生物、数学、物理、化学、计算机科学、信息科学等传统领域,目前还处于初期发展阶段。

据悉,国内近年来开展生物信息学研究的单位主要有:

中国科学院生物物理所、中国医学科学院、军事医学科学院、清华大学、北京大学、天津大学、复旦大学、东南大学、内蒙古大学等。

  中国科学院于1997年9月和12月召开了第80、87次香山会议,首次邀请有关专家对该领域进展进行探讨,主题分别为"

DNA芯片的现状与未来"

和"

生物信息学"

  1999年3月9日至10日,清华大学生物信息学研究所、国家人类基因组北方研究中心和北京生物技术和新医药产业促进中心共同举办了"

北方生物信息学学术研讨会"

1999年4月6日,北京大学举办了"

国际生物信息学讲习班"

可以预计,这类学术研讨会将会对我国生物信息学的发展起到越来越重要的作用。

希望我国科技界能充分注意这一新兴领域的发展,作出更大的贡献。

被称为「生物学史上划时代工程」的人类基因图谱测序将于今年年中完成,届时,研究会进入更为艰巨和复杂的「后基因时代」。

据从日前在沪召开的东方科技论坛上获悉,中国科学家已在这个前沿领域占据一席之地,其主要工作是阐明一些已知基因的功能,并进行了卓有成效的基因组序列变异研究。

面对即将到来的「后基因时代」,中国科学家已开展多学科、多层次的研究。

以上海肿瘤研究所顾健人院士为首的「癌基因与相关基因国家重点实验室」,在涉及肿瘤生长因子、受体、信号转录、细胞凋亡等基因的相互关系方面取得一批重要成果。

上海市第六人民医院内分泌科发现一些基因的多态性位点与糖尿病及慢性合并症的发生有一定关联。

中国预防医学科学院、劳动卫生与职业病研究所通过对钢厂冶炼工、电焊工长期跟踪发现,携带一种名为CYP2DL基因者易发生锰中毒。

中科院上海细胞研究所和东南大学吴健雄实验室还设计出最新的基因芯片。

据统计,中国科学家在功能基因研究和基因组多样性领域共完成研究论文一千八百五十篇,其中去年近三百篇,遍及医学各领域,并向药学、环境医学和法医学渗透,研究手段与水平与国外相差无几。

与会科学家表示,中国完全有条件在「后基因时代」成为主角。

1、我国首家DNA序列公共数据库开通

我国首家自主开发的核酸(DNA)序列公共数据库(BIOSINODATABASE)于7月3日上午九时正式上网试运行,并同时开始接受我国核酸序列的注册登记。

面向全国生命科学研究的核酸序列数据库是由国家863计划生物技术领域资助的一个生物信息学项目,由中国科学院上海生命科学研究院生物信息中心和国家人类基因组南方研究中心承担开发任务。

经过约3个月开发、测试,该项目已于7月初完成了第一期工作。

国家人类基因组南方研究中心将在系统启动后将率先逐步向公共数据库提供十多万条核酸序列数据。

中科院上海生命科学研究院赵国屏副院长说,目前我国还没有一个国家级的公开数据库,希望此次开通的核酸序列公共数据库能够为建立国家级生物信息公共数据库打下良好的基础。

据中科院上海生命科学研究院生物信息中心副主任李亦学介绍,此次上网运行的核酸序列公共数据库作为中国生物信息集成数据库中的一个组成部分,是为了配合我国人类基因组研究计划等一系列基因组研究项目而开发的。

其宗旨是为了保护科研人员的知识产权,实现资源共享,促进交流和合作。

此数据库的主要功能是提供核酸序列注册号;

提供核酸序列相关信息的登录;

提供基于本数据库的同源性搜索;

提供序列信息的保护功能;

提供基于电子邮件的提交方式。

其中给出唯一的与注册时间相关的注册号,将非常有助于保护科研人员的知识产权,因为按照国际惯例,注册号表示了将研究成果提交公共数据库的先后,即确认由谁首先测定了该序列。

该数据库将在年底前进入正式运行的阶段。

2、生物信息学新进展

计算机技术和人类基因组计划的发展,应运而生了一门新兴的学科——生物信息学,该学科包含了两个交叉领域的工作:

用于建立现代生物学所需信息系统框架(支持生物学的信息管理系统、分析工具和通讯网络)的研究开发工作,即传统意义上的生物信息学(bioinformatics);

旨在理解基本生物学问题的基于计算的研究工作,即计算生物学(computationalbiology)。

生物信息学和基因组研究(BioinformaticsandGenomeResearch)系列会议于1990年开始举办,1997年6月11~12日在美国加州旧金山举办了第六届国际生物信息学和基因组研究年会,年会的主要议题包括正在出现的新技术、基因的功能分析、新的数据工具和制药先导的基因和蛋白质发现[1]。

现将有关内容简介如下:

2.1 

正在出现的技术

Klingler(LncytePharmaceuticals,PaloAlto,CA,USA)强调基因组学正推动制药业进入信息时代。

随着不断增加的序列、表达和作图数据的产生,描述和开发这些数据的信息工具变得对实现基因组研究的任务至关重要。

他谈到了IncytePharmaceuticals对大规模基因组数据和生物信息学的贡献。

Lipshutz(Affymetrix,SantaClara,CA,USA)描述了一种利用DNA探针阵列进行基因组研究的方法,其原理是通过更有效有作图、表达检测和多态性筛选方法,可以实现对人类基因组的测序。

光介导的化学合成法被应用于制造小型化的高密度寡核苷酸探针的阵列,这种通过软件包件设计的寡核苷酸探针阵列可用于多态性筛查、基因分型和表达检测。

然后这些阵列就可以直接用于并行DNA杂交分析,以获得序列、表达和基因分型信息。

Milosavljevic(CuraGen,Branford,CT,USA)介绍了一种新的基于专用定量表达分析方法的基因表达检测系统,以及一种发现基因的系统GeneScape。

为了有效地抽样表达,特意制作片段模式以了解特定基因的子序列的发生和冗余程度。

他在酵母差异基因表达的大规模研究中对该技术的性能进行了验证,并论述了技术在基因的表达、生物学功能以及疾病的基础研究中的应用。

2.2 

基因的功能分析

Overton(UniversityofPennsylvaniaSchoolofMedicine,Philadelphia,PA,USA)论述了人类基因组计划的下一阶段的任务——基因组水平的基因功能分析。

这一阶段产生的数据的分析、管理和可视性将毫无疑问地比第一阶段更为复杂。

他介绍了一种用于脊椎动物造血系统红系发生的功能分析的原型系统E-poDB,它包括了用于集成数据资源的Kleisli系统和建立internet或intranet上视觉化工具的bioWidget图形用户界面。

EpoDB有可能指导实验人员发现不可能用传统实验方法得到的红系发育的新的药物靶,制药业所感兴趣的是全新的药物靶,EpoDB提供了这样一个机会,这可能是它最令人激动的地方。

Sali(RockefellerUniversity,NewYork,NY,USA)讨论了同源蛋白质结构模建。

比较蛋白质模建(comparativeproteinmodeling)也称为同源模建(homologymodeling),即利用实验确定的蛋白质结构为模式(模型)来预测另一种具有相似氨基酸序列的蛋白质(靶)的构象。

此方法现在已经具有了足够的精确性,并且被认为效果良好,因为蛋白质序列的一个微小变化通常仅仅导致其三维结构的细微改变。

Babbitt(UniversityofCalifornia,SanFrancisco,CA,USA)讨论了通过数据库搜索来识别远缘蛋白质的方法。

对蛋白质超家族的结构和功能的相互依赖性的理解,要求了解自然所塑造的一个特定结构模板的隐含限制。

蛋白质结构之间的最有趣的关系经常在分歧的序列中得以表现,因而区分得分低(low-scoring)但生物学关系显著的序列与得分高而生物学关系较不显著的序列是重要的。

Babbit证明了通过使用BLAST检索,可以在数据库搜索所得的低得分区识别远缘关系(distantrelationship)。

Levitt(StanfordUniveersity,PaloAlto,CA,USA)讨论了蛋白质结构预测和一种仅从序列数据对功能自动模建的方法。

基因功能取决于基因编码的蛋白质的三级结构,但数据库中蛋白质序列的数目每18个月翻一番。

为了确定这些序列的功能,结构必须确定。

同源模建和从头折叠(abinitiofolding)方法是两种现有的互为补充的蛋白质结构预测方法;

同源模建是通过片段匹配(segmentmatching)来完成的,计算机程弃SegMod就是基于同源模建方法的。

2.3 

新的数据工具

Letovsky(JohnsHopkinsUniversity,Baltimore,MD,USA)介绍了GDB数据库,它由每条人类染色体的许多不同图谱组成,包括细胞遗传学、遗传学、放射杂交和序列标签位点(STS)的内容,以及由不同研究者用同种方法得到的图谱。

就位置查询而言,如果不论其类型(type)和来源(source),或者是否它们正好包含用以批定感兴趣的区域的标志(markers),能够搜索所有图谱是有用的。

为此目的,该数据库使用了一种公用坐标系统(commoncoordinatesystem)来排列这些图谱。

数据库还提供了一张高分辨率的和与其他图谱共享许多标志的图谱作为标准。

共享标志的标之间的对应性容许同等于所有其它图谱的标准图谱的分配。

Markowitz(LawrenceBerkeleyLaboratory,Berkeley,CA,USA)讨论了分布式数据库与局部管理的关系,以及用基于工具的方法开发分子生物学数据库(MDBs)的问题。

许多方案当前正在促进搜索多种不同来源MDBs的数据,包括建立数据仓库;

这要求对各种MDBs的组合有一种全局观,并从成员MDBs中装填数据入中心数据库。

这些方案的主要问题是开发整体视图(globalviews),构建巨大的数据仓库并使集成的数据库与不断发展中的成员MDBs同步化的复杂性。

Markowitz还讨论了对象协议模型(objectprotocolmodel,OPM),并介绍了支持以下用途的工具:

建立用于文本文件或者关系MDBs的OPM视图;

将MDBs作成一个数据库目录,提供MDB名称、定位、主题、获取信息和MDB间链接等信息;

说明、处理和解释多数据库查询。

Karp(SRIInternational,MenloPark,CA,USA)解释了Ocelot,一种能满足管理生物学信息需求的面向对象知识陈述系统(一种面向对象系统的人工智能版)。

Ocelot支持略图展开(schemaevolution)并采用一种新的最优化并行控制机制(同时进行多项访问数据的过程),其略图驱动图形编辑器提供了交互式浏览和编辑功能,其注释系统支持数据库开发者之间的结构通讯。

Riley(MarineBiologicalLaboratory,WoodsHole,MA,USA)在讨论大肠杆菌蛋白质的功能同时,特别提到了GPEC数据库,它包括了由实验确定的所有E.coli基因的功能的信息。

该数据库中最大比例的蛋白质是酶,其次则为转运和调控蛋白。

Candlin(PEAppliedBiosystems,FosterCity,CA,USA)介绍了一种新的存储直接来自ABⅠPrismDNA测序仪的数据的关系数据库系统BioLIMS。

该系统可以与其它测序仪的数据集成,并可方便地与其它软件包自动调用,为测序仪与序列数据的集成提供了一种开放的、可扩展的生物信息学平台。

Glynais(NetGenics,Cleveland,OH,USA)认为生物信息学中最关键的问题之一是软件工具和数据库缺乏灵活性。

但是,软件技术的发展已得到了其它领域如金融业和制造业的发展经验的借鉴,可以使来自不同软件商的运行于各种硬件系统的软件共同工作。

这种系统的国际标准是CORBA,一种由250多个主要软件和硬件公司共同合作开发的软件体系。

联合使用CORBA和Java可以开发各种通过一个公用用户界面访问任何种类的数据或软件工具的网络应用软件,也包括生物信息学应用软件。

Overton不同意Glynias的这种想法,他强调说CORBA仅对软件集成有用,不兼容的数据库软件可能是计算生物学所面临的最困难问题,一些制药公司和数据库仓库最近资助了一项用OCRBA链接不同的数据库的计划[2,3]。

2.4 

制药先导的发现

Burgess(SturcturalBioinformatics,SanDiego,CA,USA)讨论了填补基因组学和药物设计之间鸿沟的蛋白质结构中的计算问题。

在缺乏主要疾病基因或药物靶的精确描述数据的情况下,药物设计者们不得不采用大规模表达蛋白质筛选方法;

而结构生物信息学则采用一种更为实用有效的计算方法直接从序列数据中确定靶蛋白质的活性位点的精细结构特征,它利用一种集成专家系统从现实的或虚拟的化学文库中进行迅速的计算筛选,可以达到一个很大的规模。

Elliston(GeneLogic,Columbia,MD,USA)讨论了治疗药物开发中发现新的分子靶的过程,着重讨论了基因发现方法。

他认为,随着日益临近的人类基因组测序的完成,几乎全部基因的特征将在序列水平得到揭示。

但是,对基因的认识将有赖于更多的信息而不仅仅是序列,需要考虑的第一类信息是转录表达水平信息,而GeneLogic 

公司的GeneExpress就是一个由mRNA表达谱、转录因子位点、新基因和表达序列标签组成的数据库。

Liebman(Vysis,DownessGrove,IL,USA)介绍了Vysis公司开发的计算和实验方法,这些主法不仅用于管理序列数据,而且被用于以下用途:

分析临床数据库和自然—突变数据库;

开发新的算法以建立功能同源性(区别于序列同源性)模拟生物学通路以进行风险评估;

药物设计的靶评估;

联系复杂的通路特性以便识别副作用;

开发疾病发展的定性模型并解释临床后果。

随着发现的新基因的日益增多,这个问题显得格外重要:

基因的功能是什么?

Escobedo(ChironTechnologies,Emeryville,CA,USA)提出了这个问题的一种方法:

将分泌蛋白质的基因的功能克隆与筛选这些克隆(可能的药物靶)结合起来。

在这种方法中,在微粒体cDNA文库池中进行体外翻译避免了劳动密集的克隆、表达和纯化步聚,对文库池中的翻译产物在细胞水平进行筛选,测试其在细胞增殖和分化中的作用。

例如,在用这种方法识别的111个克隆中,56个属于已知的分泌蛋白质,25个为膜相关蛋白,另外30个功能未知,可能是新的蛋白质。

一种相似的方法在转移到小鼠模型系统中的基因传导载体中构建分泌蛋白质的cDNA文库来克隆特定的功能基因。

Ffuchs(GlaxoWellcome,ResearchTrianglePark,NC,USA)讨论了生物信息学更为广义的影响:

它不仅影响到新药物靶基的发现,还对改善药物开发的临床前期和临床期的现状极具重要性。

众所周知,涉汲数以千计病人的临床试验(可能是药物开发最为花钱的部分)的设计不论多么仔细,也不能为正确的药物选择正确的病人。

而在基因组水平划分病人群体的方法可以大大改善发现新药的效率。

Fuchs介绍了一种将病人的基因型和表型标志结合起来以改善临床前期和临床期药物开发过程的系统GeneticInformationSystem.他强调将遗传学和生物信息学数据同化学、生物化学、药理学和医学数据连接起来的集成信息管理和分析方法是极其重要的。

Green(HumanGenomeSciences,Rockville,MD,USA)介绍了他的测序工作中采用的数据管理工具。

基于EST的测序方法所面临的挑战是,在对几百个cDNA克降重复测序之后,产生的数据堆积如山。

由于大多数人类基因都是用这种方法发现并在么有数据库中分类编排的,面临的识别开放读框、重叠序列的重叠图谱、组织特异表达和低丰度mRNA基因的任务是令人生畏的。

HumanGenomeSciences公司开发了一些可用户化数据库工具,在同一个数据库中可包括以下功能:

WWW上访问和检索数据,序列拼接,临视潜在药物靶基因的研究进展等。

这些能够管理多项任务——从注释基因序列到成功开发基因产物进入药物发现的流程——的软件工具,极其可望从一种基于基因组知识的药物发现方法中得到新的药物靶。

Summer-Smith(Base4Bioinformatics,Mississauga,Ontario,Canada)描述了一种相关的策略。

药物发现阶段中所要求的软件工具的任务是多样化的,要能注释基因,并阐明它的生理和病理功能及其商业潜质。

对这样多种来源的信息的集成与分析,在派生的、项目取向的数据库(project-specificdatabase,PSD)中可以很好完成。

由于项目贯穿于发现到开发全过程,其间又不断加入背景的成员,PSD在项目的管理与发展中成为一种关键性的资源。

按照Smith(BostonUniversity,Boston,MA,USA)的观点[2],我们并不需要更快捷的计算机或更多的计算机科学家,而是需要更的生物学家和生物化学家来解释序列的功能。

这对有些软件或硬件专家来说是个打击,但生物学系统的复杂性是令人生畏的,并且对基因功能的认识可能需要生物学方法和计算方法的结合。

探索基因的功能很可能要花费生物学家们数十年的时间,本次会议表明没有任

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 解决方案 > 学习计划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2