生物信息学学习资料.docx

上传人:b****1 文档编号:306531 上传时间:2023-04-28 格式:DOCX 页数:38 大小:754.72KB
下载 相关 举报
生物信息学学习资料.docx_第1页
第1页 / 共38页
生物信息学学习资料.docx_第2页
第2页 / 共38页
生物信息学学习资料.docx_第3页
第3页 / 共38页
生物信息学学习资料.docx_第4页
第4页 / 共38页
生物信息学学习资料.docx_第5页
第5页 / 共38页
生物信息学学习资料.docx_第6页
第6页 / 共38页
生物信息学学习资料.docx_第7页
第7页 / 共38页
生物信息学学习资料.docx_第8页
第8页 / 共38页
生物信息学学习资料.docx_第9页
第9页 / 共38页
生物信息学学习资料.docx_第10页
第10页 / 共38页
生物信息学学习资料.docx_第11页
第11页 / 共38页
生物信息学学习资料.docx_第12页
第12页 / 共38页
生物信息学学习资料.docx_第13页
第13页 / 共38页
生物信息学学习资料.docx_第14页
第14页 / 共38页
生物信息学学习资料.docx_第15页
第15页 / 共38页
生物信息学学习资料.docx_第16页
第16页 / 共38页
生物信息学学习资料.docx_第17页
第17页 / 共38页
生物信息学学习资料.docx_第18页
第18页 / 共38页
生物信息学学习资料.docx_第19页
第19页 / 共38页
生物信息学学习资料.docx_第20页
第20页 / 共38页
亲,该文档总共38页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

生物信息学学习资料.docx

《生物信息学学习资料.docx》由会员分享,可在线阅读,更多相关《生物信息学学习资料.docx(38页珍藏版)》请在冰点文库上搜索。

生物信息学学习资料.docx

生物信息学学习资料

1.1引言

1.1.1生物信息学概念

    20世纪是科学技术迅速发展的世纪,物理和化学的发展使我们可以清楚地认识物质的组成,从分子、原子、电子等各层次上深入地了解微观世界,而天文技术、空间技术的发展则使得我们可以了解地球以外的客观世界,以电子信息技术为龙头的工业技术的飞速发展,使得我们可以不断地改造世界,甚至为人类更加舒适地生活创造新的世界。

生命科学在20世纪同样也得到了发展,生理学、细胞生物学、分子生物学等学科的发展使我们从器官、组织、细胞、生物大分子等各个层次认识了生命的物质基础。

生物与其他物质有本质的区别,生物并非只是物质的简单堆积,生物体的生长发育是生命信息控制之下的复杂而有序的过程。

目前,我们对生命的奥秘还不甚了解,对生命信息的组织、传递和表达还知之甚少。

既然这牵涉到信息的组织、传递和表达,我们就可以用信息科学的方法和技术来尝试认识和分析生命信息

 人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。

人类基因组计划顺利实施,产生了大量的生物分子数据。

据权威机构统计,目前生物分子数据量每15个月翻一翻,生物分子数据发展的速度甚至超过了摩尔定律(即半导体芯片上的晶体管数量每18个月翻一翻)。

这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识。

充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,从而得到对人类有用的信息,是生物学家、数学家和计算机科学家所面临的一个严峻的挑战。

生物信息学就是为迎接这种挑战而发展起来的一门新型学科,它是由生物学、应用数学、计算机科学相互交叉所形成的学科,是当今生命科学和自然科学的重大前沿领域之一,也是21世纪自然科学的核心领域之一。

生物信息学(Bioinformatics)这个名词有许多不同的定义。

从字面上来看,生物信息学是将信息科学和技术应用于生物学。

生物信息学广义的概念是指应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。

生物信息学狭义的概念是指应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。

通过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用相关信息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生物世界的认识;在生物学、医学的研究和应用中,利用生物分子数据及其分析结果,可以大大提高研究和开发的科学性及效率,如根据基因功能分析结果来检测与疾病相关的基因,根据蛋白质分析结果进行新药设计。

一般提到的"生物信息学"是就指这个狭义的概念,更准确地说,应该是分子生物信息学(MolecularBioinformatics)。

生物信息学以计算机、网络为工具,采用数学和信息科学的理论、方法和技术去研究生物大分子,其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能。

生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。

与生物信息学相关的概念还有计算分子生物学(ComputationalMolecularBiology),计算分子生物学主要研究分析方法,开发分析工具,促进生物分子数据的分析。

与生物信息学相关的另一个名词是生物计算(Biocomputing),生物计算特指用计算机技术分析和处理生物分子数据。

生物信息学的产生一方面是由于生物科学和技术的发展,另一方面是由于人类基因组计划的实施。

其实,早在20世纪50年代生物信息学就已经形成萌芽,20世纪70年代就已经产生生物信息学的基本思想,但是生物信息学的真正发展则是在20世纪的90年代,在人类基因组计划的推动下,生物信息学才得以迅猛发展。

人类基因组计划产生的生物分子数据是生物信息学的源泉,而人类基因组计划所需要解决的问题则是生物信息学发展的动力。

1.1.2生物分子信息

    生物体是一个复杂的系统,生命过程是一个极端复杂的过程,需要物质和能量的支持。

生物体同时也是一个信息系统,该系统控制着生物的遗传、生长和发育。

所有的信息都存贮在生物体内的遗传物质中。

在生命科学的研究中,人们已经逐渐认识到,不仅需要用物理、化学和生物学方法研究生命的物质基础、能量转换、代谢过程等,还需要用信息科学方法研究生命信息特别是遗传信息的组织、复制、传递、表达及其作用,否则难以理解生命的工作机制,难以揭示生命的奥秘。

从生物学的观点来看,细胞是生命的基本单位,而从信息科学的观点来看,细胞则是存贮、复制和传递遗传信息的系统。

    生物系统通过存贮、修改、解读遗传信息和执行遗传指令形成特定的生命活动,促使生物体生长发育,产生生物进化。

从信息学的角度来看,生物分子是生物信息的载体,生物信息学主要研究两种载体,即DNA分子和蛋白质分子。

生物分子至少携带着三种信息,即遗传信息、与功能相关的结构信息、进化信息。

 DNA是遗传信息的载体。

DNA的核苷酸序列上存储着蛋白质的氨基酸序列编码信息,存储着基因表达调控的信息,存储着遗传信息。

遗传信息存储在DNA四种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表达。

因此,可以说DNA序列包含着最基本的生命信息。

存储在DNA中的信息使无活力的分子组织成有功能的活细胞,进而构成能进行新陈代谢、生长和繁殖的生物体。

人们已经认识到遗传信息的载体主要是DNA[在少数情况下核糖核酸(RNA)也充当遗传信息的载体],控制生物体性状的基因是一系列DNA片段。

一方面,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息。

另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。

在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质。

基因控制着蛋白质的合成,从基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的第一遗传密码。

蛋白质分子在生物体内执行着各项重要任务,如生化反应的催化、营养物质的输运、信号的识别与传递等。

蛋白质的功能多种多样,但是必须注意一点,即蛋白质功能取决于蛋白质的空间结构。

要了解和掌握蛋白质的功能必须首先分析蛋白质的结构,对于其它生物大分子也一样。

因此,蛋白质结构是一种重要的生物分子信息。

然而,蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。

    作为信息的载体,DNA分子和蛋白质分子都打上了进化的烙印。

通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。

比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。

生物分子信息具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据等。

序列数据、结构数据是非常直观的,但是功能数据却是多变复杂的,如关于蛋白质功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网络等。

在所有类型的数据中,序列是最基本的数据,而且也是目前最多的数据。

对生物分子数据及其关系的概括见左下图。

遗传信息从DNA序列向蛋白质序列的传递是人类已经基本了解的第一部遗传密码,然而蛋白质序列与蛋白质结构也存在着一定的对应关系,蛋白质序列决定蛋白质结构,因此有人将从蛋白质序列到蛋白质结构的关系称为第二部遗传密码。

第一部遗传密码已被破译,但是,对于密码究竟处于DNA序列的哪些区域还了解得不全面,对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少,对DNA遗传语言还有待于进一步探索。

对于第二部密码,目前则只能用统计学的方法进行分析。

无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。

生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。

    与一般信息相比,生物分子信息具有明显的特征。

首先,生物分子信息数据量大,例如DNA序列以千兆碱基(Gigabase,Gb)为单位。

随着信息处理技术进入现代生物学研究领域,随着互联网在全球的贯通,各种生物信息学数据库迅速发展,生物分子数据积累速度成倍增长。

其次,生物分子信息复杂,既有生物分子序列的信息,又有结构和功能的信息,既有生命本质信息,如基因,又有生命表象信息,如基因表达信息。

生物分子信息另一个重要的特征是,生物分子信息之间存在着密切的联系,例如,基因序列与蛋白质序列之间的关系,生物分子序列与结构之间的关系,结构与功能之间的关系,基因变异与疾病之间的关系。

    对于生物分子信息,靠人工难以完成数据处理和分析的任务,更谈不上发现隐藏在这些信息之中的内在规律。

同时,对于生物分子信息,仅靠某一学科的专家,也无法进行分析研究,因此,在生物信息学研究领域中,要求生物学家、数学家和计算机科学工作者协力合作,发展新的分子生物学计算理论和方法,运用先进的计算机技术收集、集成和分析处理生物信息。

1.1.3生物信息学的研究目标和任务

   揭示生物分子数据的内涵是生物信息学的长远目标。

生物分子数据具有深刻的内涵,数据之间存在着复杂的联系,这些数据中蕴涵着丰富的生物学知识和生物学规律。

生物信息学的发展将揭示生物分子信息的本质,使人类彻底了解、掌握遗传信息的编码、传递及表达,从而加快人类了解自身的进程。

   目前生物信息学的主要任务是研究生物分子数据的获取、存贮和查询,发展数据分析方法。

主要包括三个方面。

第一是收集和管理生物分子数据,使得生物学研究人员能够方便地使用这些数据,并为信息分析和数据挖掘打下基础。

生物分子数据来自于生物学实验,应用信息学技术收集和管理这些数据,将各种数据以一定的表示形式存放在计算机中,建立数据库系统,并提供数据查询、搜索和数据通讯工具。

   第二是进行数据处理和分析。

通过数据分析,发现数据之间的关系,认识数据的本质,进而上升为生物学知识。

并在此基础上,解释与生物分子信息复制、传递和表达有关的生物过程,解释在生物过程中出现的信息变化与疾病的关系,帮助发现新的药物作用目标,设计新的药物分子,为进一步的研究和应用打下基础。

生物分子信息处理流程见图1.2。

目前生物信息学的主要研究对象是DNA和蛋白质。

在DNA分析方面,着重分析DNA序列中的基因信息及基因表达调控信息,分析基因表达数据,分析基因之间的相互作用关系,比较不同种属的基因组,研究基因组中非编码区域的生物学功能。

在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能之间的关系,预测蛋白质的结构和功能,研究蛋白质的进化关系。

   生物信息学的研究第三个方面是开发分析工具和实用软件,解决具体的问题,为具体的生物信息学应用服务,例如,开发生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具等。

随着生物技术特别是分子生物学技术的发展,目前已经积累了大量的生物信息学数据,表1.1列出了目前已经得到的各类数据量及生物信息学对各类数据处理的基本任务。

生物分子数据类型的不断增多及数据量的不断膨胀促进了生物信息学的研究与应用。

生物信息学研究成果不断涌现,各种生物信息源如雨后春笋层出不穷,而各种生物信息分析算法和工具也日益更新。

掌握互联网上各种生物信息学数据库以及相关软件的使用技术已成为生物学和医学研究人员的迫切需要。

尤其是分子生物学的三大核心数据库—GenBank核酸序列数据库、SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,不仅是全世界分子生物学和医学研究人员获取生物分子的序列、结构和其他信息的基本来源,而且是发表自己序列或结构测定结果的重要媒体。

围绕这三大核心数据库还有众多面向各种特定应用的衍生数据库和分析软件,这些数据库分别从不同角度、以不同方式对各类生物信息学数据进行归纳、总结和注释,而各种分析软件为挖掘这些数据提供了有力的工具。

1.1.4生物信息学的研究意义

生物信息学研究是从理论上认识生物本质的必要途径,通过生物信息学研究和探索,可以更为全面和深刻地认识生物科学中的本质问题,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。

基因序列到蛋白质序列的三联密码关系是众所周知的,也是非常简单、非常确定的,然而,基因调控序列与基因表达之间的关系、蛋白质序列与蛋白质结构之间的关系则是未知的,也一定是非常复杂的。

破译和阐明生物信息的本质将使得人类对生物界的认识跨越一个新台阶。

生物信息学的出现将改变生物学的研究方式。

传统的生物学是一门实验科学,传统分子生物学实验往往是集中精力研究一个基因、一条代谢路径,手工分析完全能够胜任。

然而,随着分子生物学技术的发展,已经出现一些高通量的实验方法,如基因芯片,利用基因芯片一次可以获取上千个基因的表达数据。

生物学已经从一次只分析一个生物分子的时代跳跃到同时分析成千上万个生物分子的时代。

对于高通量的实验结果,必须利用计算机进行自动分析。

因而,在高通量实验技术出现的时代,生物信息学必然要介入生物学研究和实验。

再者,从生物分子数据本身来看,各种数据之间存在着密切的关系,如DNA序列与蛋白质序列、基因突变与疾病等,这些联系反映了生物学的规律。

但是,这些关系可能是非常复杂的,是我们未知的,是简单的多元统计方法难以分析的。

对于这些复杂的关系,必须运用现代信息学的方法去分析,去研究。

因而,随着分子生物学研究的深入,必然需要生物信息学。

另外,现在全世界每天都会产生大量的核酸和蛋白质序列,不可能用实验的方法去详细研究每一条序列,必须首先进行信息处理和分析,去粗取精,去伪存真。

通过预处理,发现有用的线索,在此基础上进行有针对性、有明确目的的分子生物学实验。

因而,生物信息学在指导实验、精心设计实验方面将会发挥重要的作用。

科学家预言:

生物信息学将是21世纪生物学的核心。

生物信息学研究在医学上也有重要的意义。

通过生物信息学分析,可以了解基因与疾病的关系,了解疾病产生的机理,为疾病的诊断和治疗提供依据。

研究生物分子结构与功能的关系将是研制新药的基础,可以帮助确定新药作用的目标和作用的方式,从而为设计新药提供依据。

揭示人类及重要动植物种类的基因的信息,继而开展生物大分子结构模拟和药物设计,是当今国际上正在迅速发展的自然科学领域最重大的课题之一,这方面的研究不仅对认识生物的起源、对认识生物遗传、发育与进化的本质有重要意义,而且将为人类疾病的科学诊断和合理治疗开辟全新的途径,还可为动植物的物种改良提供坚实的理论基础。

1.2生物信息学的发展历史

早在19世纪,人们就已经知道蛋白质在生命活动中的作用。

1883年,Curtius首先提出蛋白质线性一级结构的假设。

1933年,Tiselius首次通过电泳将溶液中的蛋白质分离出来。

在20世纪50年代前后,已经通过实验测定一些蛋白质的序列,如1947年测出短杆菌的五肽结构,1951年重构胰岛素的30个氨基酸。

几乎同一时期,科学家认识到DNA是遗传物质。

1949年,发现了DNA链中A=T、G=C的规律,1951年,Pauling和Corey提出蛋白质的a螺旋和b折叠结构,1953年Watson和Crick根据Franklin和Wilkins得到的X-射线衍射数据提出DNA的双螺旋结构模型,它揭开了分子生物学研究的序幕。

在其后的20年中,科学家们逐步地认识了从DNA到蛋白质的编码,掌握了三联密码子的本质。

1961年,Jacob和Monod发现大肠杆菌的lac操纵子中存在调控元件,证实非编码序列并不是垃圾序列。

1962年,Khesin等人发现噬菌体中的基因转录表达具有定时调节机制。

60年代出现通用的核酸测序(sequencing)技术,70年代中期开始进行基因组规模的测序工作。

早在20世纪50年代,生物信息学就已经开始孕育,1956年在美国田纳西州的Gatlinburg召开了首次“生物学中的信息理论研讨会”。

在20世纪60年代,一些计算生物学家开始进行相关研究,虽然当时没有具体地提出生物信息学的概念,但是,做了许多生物信息搜集和分析方面的工作。

在这个时期,生物大分子携带信息成为分子生物学的重要理论,生物分子信息在概念上将计算生物学和计算机科学联系起来。

大量的生物分子序列成为丰富的信息源,科学家们开始应用计算方法分析这些信息。

相关或者同源蛋白质序列之间的相似性首先引起人们的注意,1962年,Zucherkandl和Pauling研究了序列变化与进化之间的关系,开创了一个新的领域——分子进化。

随后,通过序列比较确定序列的功能及序列分类关系成为序列分析的主要工作。

氨基酸序列的收集是这个时期的一项重要工作,1967年,Dayhoff研制出蛋白质序列图集,该图集后来演变为著名的蛋白质信息源PIR。

20世纪60年代是生物信息学形成雏形的阶段。

然而,就生物信息学发展而言,它却是一门相当年轻的学科,一般认为,生物信息学的真正开端是20世纪70年代。

从70年代到80年代初期,随着生物化学技术的发展,产生出许多生物分子序列数据,而在这个阶段数学统计方法和计算机技术都得到较快的发展,于是促使一部分计算机科学家应用计算机技术解决生物学问题,特别是与生物分子序列相关的问题。

他们开始研究生物分子序列,研究如何根据序列推测结构和功能。

这时,生物信息学开始崭露头角。

从70年代初期到80年代初期,出现了一系列著名的序列比较方法,其中,Needleman和Wunsch于1970年提出的序列比对算法是对生物信息学发展最重要的贡献。

同年,Gibbs和McIntyre发表的矩阵打点作图法也是进行序列比较的一个著名方法,该方法可用于寻找序列中的重复片断,从而推测其功能。

Dayhoff提出的基于点突变模型的PAM矩阵是第一个广泛使用的比较氨基酸相似性的打分矩阵,它大大地提高了序列比较算法的性能。

Science期刊于1980年第209卷发表了关于计算分子生物学的综述。

1981年,Smith和Waterman提出了著名的公共子序列识别算法,同年,Doolittle提出关于序列模式的概念。

1983年,Wilbur和Lipman发表了数据库相似序列搜索算法。

1985年,出现快速的蛋白质序列搜索算法FASTP/FASTN,1988年,Pearson和Lipman发表了著名的序列比较算法FASTA。

1990年,快速相似序列搜索算法BLAST问世,1997年,BLAST的改进版本PSI-BLAST投入实际应用。

在20世纪70年代,还不断涌现出许多生物信息分析方法。

1972年,Gatlin将信息论引入序列分析,证实自然的生物分子序列是高度非随机的。

1977年,出现了将DNA序列翻译成蛋白质序列的算法。

1975年,继第一批RNA(tRNA)序列的发表之后,Pipas和McMahon首先提出运用计算机技术预测RNA二级结构。

1978年,Gingeras等人研制出核酸序列中限制性酶切位点的识别软件。

20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。

1982年,核酸数据库GenBank第3版公开发行。

1986年,日本核酸序列数据库DDBJ诞生。

1986年,出现蛋白质数据库SWISS-PROT。

1988年,美国国家卫生研究所和美国国家图书馆成立国家生物技术信息中心NCBI。

同年,成立欧洲分子生物学网络(EMBnet),该网络专门发布各种生物数据库。

20世纪90年代后,科学家们开始大规模的基因组研究。

1986年,出现基因组学(Genomics)概念,即研究基因组的作图、测序和分析。

1990年,国际人类基因组计划启动,该计划被誉为生命科学的“阿波罗登月计划”。

1993年,成立Sanger中心,该中心专门从事基因组研究。

1995年,第一个细菌基因组被完全测序,1996年,酵母基因组被完全测序。

1996年,Affymetrix生产出第一块DNA芯片。

1998年,第一个多细胞生物——线虫的基因组被完全测序。

1999年,果蝇的基因组被完全测序。

1999年年底,国际人类基因组计划联合研究小组宣布人类第一次获得一对完整的人类染色体——第22对染色体的遗传序列。

2000年6月24日,人类基因组计划协作组的6个国家研究机构在全球同一时间宣布已完成人类基因组的工作框架图。

与此同时,生物信息学在人类基因组计划的促动之下迅速发展。

下图描绘了从1973年以来生物医学文献数据库PubMed中搜集的与生物信息学相关论文的历年统计结果。

这张图用有关生物信息学论文数量的变化来说明何时是生物信息学的形成初期,何时是生物信息学的迅速发展期。

无论从理论上来讲还是从实际情况来看,生物信息学的实质就是利用计算机科学和技术来解决生物学问题。

生物信息学的诞生是生物学对大量数据处理和分析的需求而引发,是历史的必然。

作为一门交叉学科,生物信息学的发展依赖于计算机科学技术和生物技术的发展,而生物信息学的研究成果又促进了生物学特别是分子生物学的发展。

1.3人类基因组计划和基因组信息

1.3.1人类基因组计划简介

   基因组研究又称基因组学(genomics),它是在人类迫切需要认识自身的前提下产生的。

人类基因组计划(HumanGenomeProject,HGP)是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划。

自实施以来,该计划在世界各国引起了很大反响。

在人类基因组计划中,人们准备用15年时间,投入30亿美元,完成人类全部24条染色体中3×109个碱基对(bp,basepair)的序列测定,其主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。

作图和测序是基本任务,在此基础上人类才能解读和破译生物体生老病死以及与疾病相关的遗传信息。

    

   人类基因组计划的具体任务可以概括为建立四张图谱,分别是遗传图谱、物理图谱、序列图谱和转录图谱。

遗传图谱(geneticmap)又称连锁图谱(linkagemap),它是以具有遗传多态性(在基因组的一个遗传位点上具有一个以上的等位基因,它在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在细胞减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。

遗传图谱的建立为基因识别和完成基因定位创造了条件。

   物理图谱(physicalmap)是指有关基因组中特异性序列排列和间距的信息,建立物理图谱实际上是为全基因组测序建立“路标”,是基因组测序的前一步工作。

绘制物理图谱的目的是把有关特异性序列的信息及其在每条染色体上的相对位置线性而系统地排列出来。

限制性酶切图谱是一种高分辨率的物理图谱,它显示的是各种限制酶切点的相对位置,限制性酶切点是物理图谱中最主要的界标。

人类基因组计划中用的是基于序列标记位点STS(sequencetaggedsite)的物理图谱,在这一图谱中,基因组的某些区段比其它区段绘制得更详细。

物理图谱中STS标记可以为寻找和分离目的基因以及DNA测序提供重要的基础。

物理图谱是以核苷酸的长度为单位绘制而成的。

完成遗传图谱和物理图谱是建立序列图谱的前提条件。

   人类基因组全部DNA序列的测定是HGP的核心部分。

随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作,而大规模测序技术的改进及分析大片段DNA序列的生物信息技术的进步,对完成人类基因组全部核苷酸序列的测定起着决定性作用。

测序的完成依赖物理图谱上排序的DNA片段分子克隆,这些分子图谱通常是在较短的时间内由一个研究组从单一分离群体中获得的。

为了充分利用所有的信息,要对全部标记进行分析,这种分析涉及十分庞杂和巨大的计算,手工无法完

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 初中教育 > 语文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2