中科院基因组资料Word下载.docx
《中科院基因组资料Word下载.docx》由会员分享,可在线阅读,更多相关《中科院基因组资料Word下载.docx(46页珍藏版)》请在冰点文库上搜索。
他们给出的基因新概念主要在强调基因编码产物形式的多样性,其本质仍然是遗传信息的功能单位,而且细胞核基因组DNA也仍然是承载基因的主要物质载体。
事实上,在超越单纯的基因组DNA层次上,遗传信息单位的形式已从概念上得到了极大的拓展,目前已出现从基于DNA序列信息的传统等位基因(allele)向广义生物等位基因(bioallele)发展的趋势,包括表观等位基因(epiallele)(Johannesetal.,2008)、转录等位基因(transcriptallele)、蛋白等位基因(proteallele)、代谢等位基因(metaboallele)以及生理等位基因(physiallele)等一些广义生物等位基因的新概念。
随着生命科学日新月异的发展,一些更新的基因形式将可能被发现或提出来,新出现的元基因组(metagenome)概念甚至可能催生跨个体、跨种的metagene出现。
在可以预期的未来,生命科学的一个重要研究内容就是不断发现新的基因形式,并深入探索这些新的遗传信息单位(即新的基因形式)的特性及其参与生命过程的调控机制。
真核细胞的基因结构 在遗传学上通常将能编码蛋白质的基因称为结构基因。
真核生物的结构基因是断裂的基因。
一个断裂基因能够含有若干段编码序列,这些可以编码的序列称为外显子。
在两个外显子之间被一段不编码的间隔序列隔开,这些间隔序列称为内含子。
每个断裂基因在第一个和最后一个外显子的外侧各有一段非编码区,有人称其为侧翼序列。
在侧翼序列上有一系列调控序列(图3-3),主要包括启动子、增强子、终止子等。
启动子 启动子主要包括以下两个序列:
①在5′端转录起始点上游约20~30个核苷酸的地方,有TATA框(TATAbox)。
TATA框是一个短的核苷酸序列,其碱基顺序为TATAATAAT。
TATA框是启动子中的一个顺序,它是RNA聚合酶的重要的接触点,它能够使酶准确地识别转录的起始点并开始转录。
当TATA框中的碱基顺序有所改变时,mRNA的转录就会从不正常的位置开始。
②在5′端转录起始点上游约70~80个核苷酸的地方,有CAAT框(CAATbox)。
CAAT框是启动子中另一个短的核苷酸序列,其碱基顺序为GGCTCAATCT。
CAAT框是RNA聚合酶的另一个结合点,它的作用还不很肯定,但一般认为它控制着转录的起始频率,而不影响转录的起始点。
当这段顺序被改变后,mRNA的形成量会明显减少。
增强子 在5′端转录起始点上游约100个核苷酸以远的位置,有些顺序可以起到增强转录活性的作用,它能使转录活性增强上百倍,因此被称为增强子。
当这些顺序不存在时,可大大降低转录水平。
研究表明,增强子通常有组织特异性,这是因为不同细胞核有不同的特异因子与增强子结合,从而对不同组织、器官的基因表达有不同的调控作用。
例如,人类胰岛素基因5′末端上游约250个核苷酸处有一组织特异性增强子。
在胰岛素β细胞中有一种特异性蛋白因子,可以作用于这个区域以增强胰岛素基因的转录。
在其他组织细胞中没有这种蛋白因子,所以也就没有此作用。
这就是为什么胰岛素基因只有在胰岛素β细胞中才能很好表达的重要原因。
终止子 在3′端终止密码的下游有一个核苷酸顺序为AATAAA,这一顺序可能对mRNA的加尾(mRNA尾部添加多聚A)有重要作用。
这个顺序的下游是一个反向重复顺序。
这个顺序经转录后可形成一个发卡结构(图3-4)。
发卡结构阻碍了RNA聚合酶的移动。
发卡结构末尾的一串U与转录模板DNA中的一串A之间,因形成的氢键结合力较弱,使mRNA与DNA杂交部分的结合不稳定,mRNA就会从模板上脱落下来。
同时,RNA聚合酶也从DNA上解离下来,转录终止。
AATAAA顺序和它下游的反向重复顺序合称为终止子,是转录终止的信号。
简述原核生物基因组和真核生物基因组的不同点
●真核生物的基因组长度比原核生物的长
●原核生物只有一个复制起点,真核生物一般都有多个复制起点
●原核生物的重复序列很少,而真核生物包含了大量的重复序列
●原核生物基因是连续读的,没有内含子结构,而真核生物含有内含子结构
●原核生物的基因组为环状双链结构,而真核生物的则为线性结构
简述真核生物染色体的三大要素及其功能
●着丝粒:
控制细胞分裂时染色体的取向和移动。
●端粒:
防止染色体末端粘连,保证DNA长度稳定。
●复制原点:
起始DNA复制。
染色体在末端具有端粒结构,为什么这个结构很重要
●维持染色体结构的完整性,防止染色体被核酸酶降解及染色体间相互融和
●防止染色体结构基因在复制时丢失,解决了末端复制的难题。
人类基因组中存在哪些类型的重复
DNA串联重复序列:
卫星DNA、小卫星DNA、微卫星DNA散布重复序列:
反转录转座元件、转座元件
真核生物基因组的表达调控有那几个层次
基因组结构,转录,转录后RNA加工,翻译,翻译后蛋白质加工、运输及代谢反馈
1、基因组学是要揭示下述四种整合体系的相互关系:
(1)基因组作为信息载体(碱基对、重复序列的整体守恒与局部不平衡的关系)
(2)基因组作为遗传物质的整合体(基因作为功能和结构单位与遗传学机制的关系)
(3)基因组作为生物化学分子的整合体(基因产物作为功能分子与分子、细胞机制的关系)
(4)物种进化的整合体(物种在地理与大气环境中的自然选择)
2、为什么说基因组学是一门大科学?
(1)“界门纲目科属种”,地球上现存物种近亿,所有生生灭灭的生物,无一例外,都有个基因组。
(2)基因组作为信息载体,它所储存的信息是最基本的生物学信息之一;
既是生命本质研究的出发点之一,又是生物信息的归宿。
(3)基因组学研究包括对基因产物(转录子组和蛋白质组)的系统生物学研究。
(4)基因多态性的规模化研究就是基因组多态性的研究。
(5)基因组学的研究必然要上升到细胞机制、分子机制和系统生物学的水平。
(6)基因组的起源与进化和物种的起源与进化一样是一个新的科学领域。
(7)基因组信息正在以天文数字计算,规模化地积累,它的深入研究必将形成一个崭新的学科。
(8)基因组的信息是用来发现和解释具有普遍意义的生命现象和它们的变化、内在规律、和相互关系。
(9)基因组的信息含量高。
基因组学的研究又在于基因组间的比较。
(10)基因组学的复杂性必然导致多学科的引进和介入(各生物学科、医学、药学、计算机科学、化学、数学、物理学、电子工程学、考古学等)。
(11)基因组学研究的手段和技术已经走在生命科学研究的最前沿。
(12)基因组信息来自于高效率和规模化所产生的实验数据。
(13)人类基因组计划证明了基因组研究的迫切性和可行性。
简述学习基因组学的意义和面临的挑战
①全面鉴定人类基因组所编码的结构和功能成分
②发展对人类基因组的可遗传变异的详细理解
③发展基于基因组学的方法来预测疾病的敏感性和药物反应,疾病的早期检验,以及疾病的分子分类
④应用新的基因和代谢通路的知识开发有效的、新的疾病治疗方法发展
⑤理解物种间的进化变异及其机制
⑥关键农作物基因的克隆和功能验证
⑦基于基因组的工具来提高农作物产量,解决世界粮食危机及全球温饱问题
生命四个困境及五流学说
TheFourDilemmas
GenomicDilemmas
Thereplication-transcriptionloaddilemma(基因与基因组基本结构)
Thepolyploidy多倍体dilemma(基因组变演在细胞水平的原动力)
Thegermline种系dilemma(基因组变演在组分水平的原动力)
TheLamarckian-Darwinian(epigenomics)dilemma(信息流与操作流的互作)
基因组生物学研究欲揭示的四个“生命之谜”
“人类基因组计划”开启了诸多前所未有的新的生命学科分支(比如基因组学、生物信息学、蛋白质组学、转录组学、代谢组学等),推动了前沿技术的不断发展与更新,强化了科学研究的平台化和规模化,从而引导和促进了学科间的交叉和融合。
最引人注目的是生物信息学和计算生物学的产生和高速发展,这两个学科的发展推动了高性能计算、规模化生物学数据获取和近期的云平台建设等在生命科学领域广泛和深入的应用。
随着DNA测序技术的规模化应用,不同物种的基因组和RNA组(Ribogenome,包括转录组和其它非编码RNA)序列也在不断被解读,数据的积累已成天文数字。
DNA测序技术也被用到了所谓表观遗传学(Epigenetics)或称表观组学(Epigenomics)研究领域,比如构成染色体的DNA分子的化学修饰和构象。
科学家们不仅有机会获取最基本的遗传信息,比较不同物种的基因组序列,揭开诸多令人困惑的“科学谜团”,同时也打开了新的“潘多拉匣子”,从而遇到了更复杂、更深刻、更具有挑战性的新问题。
使我们不得不静下心来思考很多及未解和前所未遇的问题。
遗传学和物种进化理论是生物学的诸多重要理论和学科基石之一。
“下一代”(Next-generationsequencing,NGS)DNA测序技术从根本上解决了发现遗传与变异的手段,使我们可以获取任何物种和其群体所携带的遗传多样性信息。
除了资源导向强烈的基因型(Genotype)与表现型(Phenotype)的关联研究(Genome-wideassociationstudy,GWAS)外,我们同时也要思考跨度(学科)更大和更深刻(历史)的理论问题。
那么,就最基本的生物学问题而言,我们应该最关注的是什么?
就生物学而言,尤其是新兴起的基因组生物学,我们能凝练出哪些未解之谜?
我们能够找出多少定势和规律?
这里我们不妨先提出并初步探讨其中的四个。
1“复制与转录负担之谜(TheReplication-transcriptionLoadsDilemma)”
第一个“生命之谜”是要回答基因组的基本结构特征[1–3],包括:
(一)植物与动物基因组结构有哪些不同?
这些不同源自何处?
(二)脊椎动物与无脊椎动物,比如节肢动物基因组结构有哪些不同?
(三)不同高级物种谱系(Lineages)和低等物种谱系基因组之间的有哪些结构差异和特点?
例如,高等植物基因组有很多基因间区(intergenic,是基因之间没有基因的部分,大多富集被称为long-terminal-repeat或LTR的重复转座子序列),但是这些部分大多等于(如在拟南芥和水稻)或超过(如玉米)基因组大小的50%,有时候也会是整个基因组核苷酸总数的95%(例如大麦和小麦)以上。
因此,我们不禁要问:
为什么植物要复制这些不编码蛋白质的DNA序列呢?
为什么不单独增加一些编码基因的序列就可以了呢?
难道这里是“进化”的“死角”和“垃圾站”?
在基因组结构上与植物相反的是:
动物基因组将重复序列放在了基因的内含子里面(内含子是基因的一部分,与外显子构成基因的结构部分)[2,4],不仅被复制,而且还被转录,最后在翻译之前又被毫不吝惜地丢掉:
降解成核苷酸了。
从表面上看,这也是一种资源的浪费。
因此,我们称之为“复制与转录负担”之谜,即植物基因组复制多余的非编码DNA,动物基因组转录多余的非编码DNA为RNA。
同时,我们认为复杂的分子结构和细胞过程组合(包括剪切、加工等)很难同时变得更为复杂,因此不同的生物谱系选择了不同组合或者变演的途径[4]。
如果我们检测单细胞真核生物的基因组结构,会发现它们的基因组结构有的像植物(比如卵菌),而有的则像动物(比如面包酵母)。
那么,会不会植物和动物有着不同的单细胞祖先呢?
答案应该是肯定的,只是我们还没有这么想和去认真寻找证据和论据而已。
例如复制的机器(包括多倍体的形成)和转录的机器这里又引伸出诸多新的问题,举几个例子:
(1)这种基因结构的二相性是如何产生的?
(2)复制依赖于DNA主导的分子机制本身的复杂性,这些复杂分子机制可否实现彻底解析?
(3)基因结构的二相性为什么还伴随重复序列的不同?
就产生的历史而言,这些重复序列的潜在功能可能是什么?
(4)基因组的增大,意味着复制负载的增大,其动力何在?
2“多倍体之谜(ThePolyploidyDilemma)”
除了横向基因转移和个别基因的(随机)加倍,很多单细胞真核生物是通过全基因组的多倍体化(WholeGenomeDuplication,WGD)来获取新基因的[5]。
一般认为多倍体的形成是通过全基因组加倍(可以来自同源基因组,也可以来自异源基因组)后形成多倍体基因组,然后经过持续的基因丢失最后实现二倍体化,成为新的二倍体,也被称为古多倍体。
这些多倍体是如何产生,又如何在细胞周期中复制的呢?
尽管在基因的水平上有人给出了可能性和假说,但是在细胞水平上我们其实还是缺少证据的。
多倍体在植物基因组是非常常见的(无论是古多倍体还是新形成的现代多倍体),但是在节肢动物和无脊椎动物确是极其罕见的(到目前还没有发现)。
在脊椎动物多倍体化的分布是“低多高无”,不断变化的。
低等脊椎动物,比如鱼类和两栖类大部分是多倍体。
可是高等脊椎动物,比如爬行类、哺乳类和鸟类则几乎没有多倍体基因组(除了某些体细胞,譬如肝脏细胞、膀胱表皮细胞、肌纤维细胞等的多核亦称多倍体现象外)存在。
很多关于多倍体化问题的答案应该在单细胞真核生物、低等脊椎动物和高等植物基因组的变化中去找。
节肢动物几乎没有全基因组多倍体化的证据。
3“生殖系之谜(TheGermlineDilemma)”
第二个“生命之谜”是基因突变和自然选择之间的在分子水平上的复杂性。
200余年来,达尔文的进化思想和后人们的种种理论主导了生物学各个领域。
达尔文和他的继承者们否定了拉马克主义的进化理论(以“用进废退”和“获得性遗传”最为著名),认为遗传突变是随机产生的,而且大部分是中性的,或近于中性的弱有害突变。
然而,我们十余年来的研究发现突变和选择的机制其实既有符合达尔文主义原理的,也有符合拉马克主义原理的,远比人们已知和想象的要复杂和细微得多。
从数量来看,“达尔文主义变异”(或称随机突变)毫无疑问占据了主要的地位;
但是从复杂性来看,“拉马克主义变异”(非随机变异和非蛋白质功能选择等)则更功能化、更细腻、更无所不在,因此也更神奇。
这里介绍几个例子。
首先在研究基因表达时,我们发现基因表达越高,其突变率就越高[6,7]。
尽管说这个现象是普遍存在的,但是在禾本科植物基因组中表现得最为突出,形成了一个GC含量变化的梯度[7]。
脊椎动物谱系里的温血动物(鸟类和哺乳类)基因组表现得更突出。
另一个例子是组织特异性表达基因的突变率大大地高于(约为30%)看家基因(在所有细胞中都表达的基因)的突变率(已经扣除自然选择的影响)[6]。
这个现象近乎神奇,因为组织特异性基因在生殖系细胞(卵母和精母细胞)中表达其实和看家基因、组织特异性基因(仅在不同特定组织和细胞中被调控和表达)没有什么必然的关系。
只有在染色体结构上的高维组织形式与基因在细胞中的有序表达(比如器官发育和组织分化)相关联时,这样的结果才能出现。
因此,这个谜又称为“生殖系之谜”。
也就是说,在生殖细胞里,发育和器官分化的信息就已经存在,后来又被“有序地释放”出来。
DNA甲基化在斑马鱼受精卵早期发育过程中“父系”标记取代“母系”标记的过程就是一个很好的例证[8–10]。
在自然选择方面,我们也观察到选择机制几乎无处不在。
比如,基因簇的选择问题。
在脊椎动物和植物基因组中,大部分基因是成簇存在的,它们的基因簇非常保守和稳定,所以有比较好的共线性。
但是,节肢动物基因组中的基因簇结构就很差[11]。
基因簇的存在主要是基因共表达的一种结构形式。
在基于基因功能的选择上,基因簇也具有特殊性,比如节律调控基因就倾向于从基因簇中“逃逸”,位于基因簇之外[12]。
基因结构本身也有很多选择因素的存在,比如最小内含子(一类物种或谱系特异,大小固定的内含子)的选择,不仅有大小的选择(倾向于一个较为固定的长度范围),也有位置的选择(倾向于富集在基因的3’端)。
4“表观组学之谜(TheEpigenomicsDilemma)”
遗传与非遗传(或称为环境和表观遗传的总和)的关系一直是遗传学的困惑。
尽管分子生物学也有整整一甲子的历史了,但是遗传学与分子生物学,尤其是与细胞生物学的学科边界还是有很深的鸿沟。
比如,细胞生物学家在选择研究对象时往往忽略遗传学因素。
分子生物学家对机制和分子之间的相互作用感兴趣更多。
目前生物学研究的总体趋势是“分久必合”,是信息和知识的大整合时期。
逻辑很简单,生命是复杂的,因此科学研究也应该走向接纳复杂性、认识复杂性和解决复杂问题。
过去我们对非遗传因素的定义非常粗略,现在是重视的时候了。
我曾提出了所谓的“五流说”,强调遗传学只是基于“信息流”的学问。
其它四个“流”是用来定义传统遗传学没明确定义的可遗传、部分遗传和非遗传因素。
比如“操作流”就强调生命现象的分子生物学基础和机制,强调DNA、RNA和蛋白质分别主导的细胞学机制,它们毫无疑问会有不同的起源,也会有所分工、有所侧重、有所不同。
“分室流”的提出是在于拓展发育、分化、细胞结构等研究的范围和促进知识的必要整合。
同时,这些领域也应该思考进化的因素,比如脊椎动物心室的进化,就是一个由简单到复杂的分室化过程。
“平衡流”是一个新的概念,旨在整合过去的基本生物化学问题和现在的微流控、单分子和单细胞研究技术平台。
尤其是研究平衡流中“能量流”、“物质流”和“信导流”之间的关系。
过去积累的分子开关、分子传感、分子标记技术将大有用武之地。
最后的一个“流”就是可塑性的研究,又包括表型的可塑性和行为的可塑性。
过去曾经有过关于表性可塑性是不是可遗传的争论,现在看起来应该重温一下。
比如,我们常观察到谷子和其它很多农作物在干旱的情况下,会长得很矮小,但是它们会接出数量非常少,但是却很饱满的种子。
这里有两个根本问题,第一,这样的种子如果继续种下去的话,会长出正常的植物吗?
它们的后代和后代的后代呢?
第二,植物是如何改变其表型(生长行为的可塑性)来保证接出正常种子的呢?
这个转折是如何实现的呢?
行为的可塑性是神经生物学的重要研究内容。
随着分子生物学、细胞生物学和遗传学在神经生物学领域的应用,主导已久的生理学手段也会有所拓展。
那么行为的可塑性是单纯的物质平衡和记忆吗?
这些记忆是可以变成某种本能或者说是可遗传的吗?
尽管说表观组学的研究还刚刚开始,但是值得可庆幸的是我们已经积累了很多工具和知识,我们需要的是一些主导性的大型项目。
目前可数的是神经系统的“连接组”研究,揭示神经元之间的物理和生理关系。
“暴露组”研究也在启动,用于量化物理和化学环境对生命的影响。
前者是为神经生物学研究和行为、认知等研究奠定物质基础,而后者则试图关联遗传因素与非遗传因素的关系。
6.结束语
我们在这里提出了几个基因组学的未解之谜,分别代表着基因组学研究不同层面的问题:
(1)基因与基因组结构的问题,
(2)基因组变演的基本动力和机制问题,(3)染色体构象、基因分布与生物体发生的关系,以及(4)遗传与非遗传机理在分子水平的解剖。
科学首先是个复杂的意识形态的范畴,包含理论(科学概念和定律等)、技术和应用,它也是一种实践和生产力,既解决具体问题,也探讨指导实践的理论。
科学概念和宏观理论框架的明晰会帮助我们保持头脑清醒,设计更合理的实验,解决关键科学问题。
各类“组学”实际上是技术和应用导向的实践,解决的是具体问题;
“组学”数据的分析和挖掘,通过理论框架的有机连接,导致新的概念、理论和定理的产生则是科学实践的升华。
因此,我们会很容易地意识到“五流说”其实是开通学科交叉和融合的“渠道”,既可以作为一个生物学研究的基本理论框架,也可以指导新的思考和实践。
尽管就其目前的结构而言,一定不会覆盖所有生物学领域的科学问题,但是我们总应该找到一个合理和有效的开始。
“千里之行始于足下”,足下的“五流”也正是一个不算宽广的“路”的开始。
生命科学研究的路既充满乐趣和实用性,又充满挑战,一定是漫长而坎坷的。
海魂基因视点:
事实上,许多客户告诉我们,之所以选择基因检测及个人全面健康管理方案,是因为对自身与家庭健康的重视,无论多强大的经济实力,健康的身体才是自身最重要的财富。
古医术言“上医治未病”,尽管目前政府医疗体系推动“预防”的进程太慢,但我们依然可以通过自身的选择,让我们自身提前一步进入“以预防为主”,远离重病痛苦的“全面健康”状态。
生命之流:
信息流+操作流
生命应该起源于“操作”(operation)而不是起源于“信息”(information)。
“操作”首先是由生命大分子“建筑材料”(buildingblocks)的物理和化学性质决定。
分子之间的相互作用,称为分子机制(molecularmechanisms);
而分子机制的关联性和运动则称为过程(processes);
两者的结合,称为“流”(tracks)。
相对稳定、有规律的操作就形成了“操作流”(operationaltracks),操作流的可重复性则需要“信息流”(informationaltracks)来保证,因此,操作流的信息化成为必然,导致信息流的产生。
基因组生物学之“五行”与五流同悟
1.信息流:
遗传学与变演论TheInformationalTrack:
GeneticsandEvolution
–基因组结构与变演GenomicsandComparativeGenomics
–基因型与表型界定Genotype-phenotypeRelationship
–物种变演Lineage-specificGenomicsan