ImageVerifierCode 换一换
格式:DOCX , 页数:18 ,大小:33.58KB ,
资源ID:1480699      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-1480699.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(生物信息与生物信息学Word下载.docx)为本站会员(b****1)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

生物信息与生物信息学Word下载.docx

1、生物体的各种功能能够有条不紊地进行,对环境能及时做出反应,是由于生物体内存在着通过各种各样的化学信息分子进行传递的信息系统。计算机科学与基因组技术的发展,生物信息的概念又成为了基因的计算机数据库、数据处理、基因序列信息、生物系统的计算机分析与软件设计等含义,属于生物信息学或计算生物学的内容,从而形成了另外一种概念。遗传信息遗传信息(genetic information) 指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序,或指核苷酸的排列顺序,DNA中的脱氧核苷酸、RNA中的核糖核苷酸的排列顺序。研究领域遗传信息是指生物为复制与自己

2、相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息,即碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序) 。在1866年首先是由G.J.Mendel(1866)的研究形成了概念,即相应于生物各种性状的因素(称为基因)中包含着相应的信息(以后G.Beadle等人(1941)所开创了遗传生物化学的研究,描绘出这样一个轮廓:基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。关于基因的化学本质方面,根据O.T.Avery等(1944)进行的转化实验,以及A.Hershey和M.Chase(1952)用大肠杆菌噬菌体的DNA进行的性状表达实验,已阐明DNA是遗传信息的载

3、体。附着DNA结构研究的进展,1960年已经确立了这样的概念,即基因所具有的信息可将DNA的碱基排列进行符号化。信息在表达时,DNA的碱基排列首先被转录成RNA的碱基排列,然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA,而是RNA。遗传信息不仅有相应于蛋白质的基因信息,也包括对信息解读所必需的信息、控制信息表达所必需的信息,以及生物为了复制与自己相同结构所必需的一切信息。种类基因中脱氧核苷酸种类、数目和排列顺序的不同,决定了遗传信息的多样性。遗传传递分类生物体遗传信息的传递的几种类型;中心法则及其补充内容告诉了我们遗传信息的流动方向。其分解过程包含了如下6点:DNA的复制,遗

4、传信息流动方向由DNADNA;DNA的转录,遗传信息流动方向由DNARNA;翻译,遗传信息流动方向由RNA蛋白质;RNA的复制,遗传信息流动方向由RNARNA;RNA的逆转录,遗传信息流动方向由RNADNA;蛋白质的复制,遗传信息流动方向由蛋白质蛋白质。但是究竟在生物体中遗传信息的传递应该包含其6点内容中的几种呢?不同类型的生物,遗传信息的传递过程也有所差异。生物体遗传信息的传递大致分为如下类型:DNA复制型在DNA复制型的生物中,生物体的遗传信息流动包含3点:DNA的自我复制,遗传信息流动方向由DNADNA;DNA的转录和翻译,遗传信息流动方向由DNARNA蛋白质。这种类型的生物主要针对地球

5、上绝大多数的动植物和噬菌体病毒等。RNA复制型在RNA复制型的生物中,生物体的遗传信息流动包含2点:RNA的自我复制,遗传信息流动方向由RNARNA;翻译,遗传信息流动方向由RNA蛋白质。这种类型的生物主要针对植物病毒如烟草花叶病毒和动物病毒如脊髓灰质炎病毒等。也有些遗传信息的流动只有1种:这种类型的生物主要针对SARS病毒,流感病毒等。RNA逆转录型在RNA逆转录型的生物中,生物体的遗传信息流动包含3点:转录,遗传信息流动方向由DNARNA,翻译,遗传信息流动方向由RNA蛋白质。这种类型的生物主要针对致癌病毒和导致艾滋病的人体免疫缺陷病毒(HIV)。蛋白质复制型在蛋白质复制类型的生物中,生物

6、体的遗传信息流动包含1点:蛋白质的复制,遗传信息流动方向由蛋白质蛋白质;这种类型的生物2000年以前只发现一种即盛行欧美的疯牛病病毒(朊病毒)。起源遗传信息是由三联体密码子记载的,因此遗传信息的起源归根结底就是密码子的起源问题。迄今为止,提出了若干假说。这些学说分别从偶然性、化学相互作用、协同演化、生化系统起源以及综合作用等不同视角探讨了遗传密码子起源的可能途径,特别是以生化系统构建为目的的从能量转化到信息化的演化机制值得关注。凝固事件假说克里克(Francis Crick)提出凝固事件假说(frozen accident hypothesis),认为密码子与氨基酸的关系是在某一时期固定的,之

7、后很难再被改变。所有的生物几乎使用着同样一套密码似乎支持这一假说,这也表明,所有生物起源自单一的共同祖先(Crick 1968)。这推测了演化事件的重要时间节点。立体化学假说韦斯(Carl Richard Woese)提出了立体化学假说(stereochemical hypothesis),认为氨基酸与它们相对应的密码子有选择性的化学结合力,即遗传密码的起源和分配与RNA和氨基酸之间的直接化学作用密切相关,或者说,密码子的立体化学本质取决于氨基酸与相应的密码子之间物理和化学性质的互补性(Woese et al. 1966)。这可能是密码子起源的一个重要化学机制。Polyansky等(2013)

8、通过实验和计算发现,mRNAs中不同核酸碱基的密度分布,非常类似于它们所编码的蛋白质中这些相同核酸碱基的氨基酸亲电子密度分布,遗传密码进行了高度最佳化,以最大化这种匹配。共进化假说王子晖(J. Tze-Fei Wong)提出了共进化假说(co-evolution hypothesis),认为密码子系统有原始氨基酸形成的前生物代谢途径的印迹,因此可以从氨基酸代谢途径发现密码子的演变过程,即密码子的进化与氨基酸生物合成的进化是并列的。该假说认为,氨基酸和相应编码的忠实性反映了氨基酸生物合成路径的相似性,并非物理化学性质的相似性(Wong 1975)。这推测了密码子起源的一种可能路线,但是,从简单的

9、原料合成各种氨基酸可能是发生在前生命演化末期的事情了。ATP中心假说谢平(2016)提出了ATP中心假说(ATP-centric hypothesis),认为遗传密码子是生化系统的一部分,因此,必须与生化系统的演化相关联,而生化系统的核心是能量载体ATP(各种生化循环,如卡尔文循环、糖酵解和三羧酸循环等,均与ATP相耦联),它是光能转化成化学能的唯一终产物,它可以衍生出其它核苷酸,这些核苷酸可以自身缩合成核酸。ATP可活化氨基酸,为多肽链的缩合提供了能量基础。因此,只有ATP才能建立起核酸和蛋白质之间的联系。综合进化假说Knight等(1999)提出了综合性假说,认为遗传密码是由选择(sele

10、ction)、历史(history)和化学(chemistry)三个因素在不同阶段起作用的。该假说认为,在遗传密码起源初期,可能主要是氨基酸和密码子之间的直接相互作用来决定氨基酸的编码;在新氨基酸的引入和密码子扩展阶段,共进化作用可能占据主导地位;而随着tRNA的进化和蛋白质的功能增加,逐渐去除了氨基酸和密码子的直接相互作用,密码子在不同尺度上的交换在某些程度上允许通过密码子的重新分配进行优化。其它假说1981年艾根提出了试管选择(in vitro selection)假说,1989年英国化学家奥格尔(Leslie Eleazer Orgel)提出了解码(decoding)机理起源假说,198

11、8年比利时细胞生物学和生物化学家杜维(Christian de Duve,1974年获诺贝尔生理学或医学奖)提出了第二遗传密码(second genetic code)假说。英国巴斯大学的Wu等(2005)推测,三联体密码从两种类型的双联体密码逐渐进化而来,这两种双联体密码是按照三联体密码中固定的碱基位置来划分的,包括前缀密码子(Prefix codons)和后缀密码子(Suffix codons)。不过,也有人推测三联体密码子是从更长的密码子(如四联体密码子quadruplet codons)演变而来,因为长的密码子具有更多的编码冗余从而能抵御更大的突变压力(Baranov et al. 2

12、009)。2007年中国科学院北京基因组研究所的肖景发和于军(2007年)提出了遗传密码的分步进化假说(stepwise evolution hypothesis),认为最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码,共编码7个多元化的氨基酸,随着生命复杂性的增加,鸟嘌呤G从主载操作信号的功能中释放出来,再伴随着C的引入,使遗传密码逐步扩展到12,15和20个氨基酸(肖景发和于军2009)。厦门大学的有机化学家赵玉芬(1994-1996年)也曾提出核酸与蛋白共同起源的观点,认为“磷是生命化学过程的调控中心”,因为磷酰化氨基酸能同时生成核酸及蛋白,又能生成LB膜及脂质体。她认为,原始地球火

13、山频发,焦磷酸盐、焦磷酸脂类化合物容易在地表积累,其POP键含有的能量,通过与氨基酸形成PN键,最终转移到肽键和核苷酸的磷酸二酯键中。她推测,磷酰化氨基酸在同时生成蛋白质和DNA/RNA的过程中,蛋白质与DNA/RNA可以通过磷酰基的调控作用相互影响,从而产生了原始密码子的雏形,并进一步进化到遗传密码的现代形式。但问题是,磷酰化氨基酸为何要导演核酸和蛋白质的共进化故事呢?也有将关于密码子起源的各种学说分为这样四类的:化学原理(Chemical principles)、生物合成扩展(Biosynthetic expansion)、自然选择(Natural selection)和信息通道(Info

14、rmation channels)。根据信息理论研究中的率失真模型(rate-distortion models)推测,遗传密码子的起源取决于三种相互冲突的进化力量的平衡:对多样的氨基酸的需求、抵御复制错误以及资源最小成本化(Freeland et al. 2003,Sella and Ardell 2006,Tlusty 2008,)。化学信息:生物在某些特定条件下,或某个生长发育阶段,分解出某些特殊的化学物质。这些分泌物不是对生物提供营养,而是在生物的个体或种群之间起着某种信息的传递作用,即构成了化学信息。如蚂蚁可以通过自己的分泌物留下化学痕迹,以便后面的蚂蚁跟随;猫、狗可以通过排尿标记自

15、己的行踪及活动区域。化学信息对集群活动的整体性和集群整体性的维持具有极重要的作用。二、生物信息学生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。生物信息学(Bioinformatics) 1 是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要

16、体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。定义生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科(Bioinformatics is a new subject of genetic data collectionanalysis and dissemination to the research community)。(林华安,Dr. Hwa A. Lim,1987)二.生物信息学特指数据库类的工作,包括持久稳固的在一个稳定的地方提供对数据的支持(Bioinformatics

17、refers to databaxxxxse-like activitiesinvolving persistent sets of data that are maintained in a consistent state over essentially indefinite periods of time)。(林华安,Dr. Hwa A. Lim,1994)三.生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。(Luscombe2001)具体而言,生物信息

18、学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:新算法和统计学方法研究;各类数据的分析和解释;研制有效利用和管理数据新工具。生物信息学是一门利用计算机技术研究生物系统之规律的学科。生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物

19、学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现

20、在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向:基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,已达到每14个月翻一番的速度。同

21、时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初级阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。经历阶段前基因组时代(20世纪90年代前) 这一阶段主要是各种序列比较算法的建立、生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等。基因组时代(20世纪90年代后至2001年) 这一阶段主要是大规模的基因组测序

22、,基因识别和发现,网络数据库系统地建立和交互界面工具的开发等。后基因组时代(2001至今) 随着人类基因组测序工作的完成,各种模式生物基因组测序的完成,生物科学的发展已经进入了后基因组时代,基因组学研究的重心由基因组的结构向基因的功能转移。这种转移的一个重要标志是产生了功能基因组学,而基因组学的前期工作相应地被称为结构基因组学。发展简介生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:遗传因子是以生物成分存在,1871年Miescher从死的白细胞核

23、中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。这个

24、模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以

25、后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜

26、在突破性发现的可能,生物信息学正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是读懂基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的

27、重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示基因组信息结构的复杂性及遗传语言的根本规律,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。研究方向生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。序列比对序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,

28、遍历和比较数据库中的DNA序列,比较两个或多个序列的相似性,在数据库中搜索相关序列和子序列,寻找核苷酸(nucleotides)的连续产生模式,找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的

29、BLAST和FASTA算法及相应的改进方法均是从此前提出发的。蛋白质比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到10003000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白

30、质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。基因识别分析基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的35%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2