分子生物学讲义.docx

资源描述

分子生物学讲义.docx

《分子生物学讲义.docx》由会员分享，可在线阅读，更多相关《分子生物学讲义.docx（41页珍藏版）》请在冰点文库上搜索。

分子生物学讲义.docx

分子生物学讲义

•经典的基因概念：

三位一体基因：

突变的最小单位重组的最小单位功能的最小单位

•现代的基因概念：

1基因具有精细结构：

重组子（recon）突变子（muton）顺反子（cistron）

2基因序列的多样性：

跳跃基因断裂基因重复序列假基因

•突变子：

突变单位，基因内部有许多突变位点，也称突变子（muton）即突变后产生变异的最小单位。

•重组子：

重组单位，基因内部有多个重组单位，也称重组子（recon）不能由重组分开的最小单位。

•顺反子（cistron，又叫作用子）：

功能单位，从功能单位的意义上讲，一个顺反子相当于一个基因的DNA或RNA单元，它的产物是一个完整的肽链或者RNA分子，平均大小约为500-1500bp。

•断裂基因（splitgene）：

指基因内部被一个或更多不翻译的编码顺序即内含子所隔裂。

1977年美国的Sharp和Roberts两组科学家分别同时发现。

内含子（intron）：

•在成熟mRNA的片段中未反应出的DNA区段（ABCDEFG）非编码序列

外显子（extron/exon）:

•DNA序列中被转录成为mRNA中的片段（1234567）•编码序列

•重叠基因（overlappinggene）：

两个或两个以上的基因共有一段DNA序列的现象

•重复序列：

是指在一个DNA分子中出现不止一次的序列，重复序列可彼此相同方向（正向重复）也可以相反方向（反向重复）

•根据重复程度，可以将DNA序列分为三种类型：

–单一或轻度重复序列：

基因组中只有一个拷贝或重复频率很低的序列；

–中等重复序列：

重复次数几十次到几百次的序列；

–高度重复序列：

重复次数几百次到几百万次的序列

•跳跃基因：

是一类反转座子（retrotransposon），即通过RNA中间产物在天然状态下由基因组中一个位点进行复制，插入到基因组其它位点从而整合到基因组中的DNA序列。

•跳跃基因可引起基因组发生大范围基因重排。

•假基因（pseudogene）：

在多基因家族，核苷酸组成序列上与有功能的基因非常相似，但不具正常功能的基因

根据基因的转录和翻译功能可以把基因分为三类

•第一类是编码蛋白质的基因，它具有转录和翻译功能，包括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节基因

•第二类是只有转录功能而没有翻译功能的基因，包括tRNA基因和rRNA基因

•第三类是不转录的基因，它对基因表达起调节控制作用，包括启动基因和操纵基因

•基因组–细胞内遗传信息的携带者DNA的总体

•细胞核（chromosomeDNA）•细胞质（mitochondrionDNA）

•基因组中不同的区域具有不同的功能

–有些区域编码蛋白质的结构基因

–有些区域复制及转录的调控信号

–有些区域的功能尚不清楚

病毒的结构和功能

•病毒不能独立地复制，必需进入宿主细胞中，借助细胞内的一些酶类和细胞器才能使病毒得以复制

•外壳蛋白（或被膜）的功能是1–识别和侵袭特定的宿主细胞

2保护病毒基因组不受核酸酶的破坏

病毒基因组的结构特点

1.病毒基因组大小相差较大，与细菌或真核细胞相比，病毒的基因组很小

2.病毒基因组只有一种核酸组成：

DNA或RNA

3.多数RNA病毒的基因组是由连续的

4.基因重叠，即同一段DNA片段能够编码两种甚至三种蛋白质分子

5.基因组的大部分可编码蛋白质，只有非常小的一部份不编码蛋白质（通常是基因表达的控制序列）

6.形成多顺反子结构（polycistronie

7.除了反转录病毒以外，一切病毒基因组都是单倍体，每个基因在病毒颗粒中只出现一次

8.噬菌体（细菌病毒）的基因是连续的，而真核细胞病毒的基因是不连续的

乳头瘤病毒（papillomavirus）是感染人和动物皮肤粘膜并引起乳头状瘤病变的一种DNA病毒

•属于乳多空泡病毒（papovavirus）科

•根据病毒感染的宿主不同可以分为

–牛乳头瘤病毒（BPV）–人乳头瘤病毒（HPV）

乙肝病毒基因组的结构和功能

（一）

•乙肝病毒（hepatitisBvirus，HBV）是目前已知的感染人类的最小的双链DNA病毒

•HBV的基因组结构显得特别精密浓缩，基因组DNA结构奇特

•环状的部分双螺旋结构，长约3.2kb。

其中的2/3为双螺旋结构，1/3为单链，DNA中的两条链不等长

•长链为负链，5’端与3’端无共价连接，而是与一种蛋白质共价相连

•短链为正链，长度视病毒而异，一般长约1.6-2.8kb,约为长链的2/3，短链之间的空隙可由病毒颗粒中的DNA聚合酶充填

1.重叠的基因序列比较多

–已确定的开放读码框架（openreadframe，ORF）有4个，分别编码：

•病毒的核壳（C）•包膜（S）蛋白

•病毒复制酶（聚合酶）•与病毒基因表达有关的蛋白质（X）

2.调节序列位于基因内部

–启动子存在于编码蛋白质序列内

–增强子（enhancer）位于聚合酶基因中

–polyA附加信号位于CORF中

–皮质激素敏感因子（GRE）位于SORF和聚合酶基因中

HBVDNA复制过程

1.以“-”链DNA为模板合成全长的“+”链RNA（称为前基因组RNA）（亲代“-”链DNA→“+”链RNA）

2.该“+”链RNA被包装在未成熟的核心样颗粒中，同时还有DNA聚合酶和一种蛋白质也被包装在颗粒中（“+”链RNA等包装成病毒核心颗粒）

3.在该颗粒中，再以“+”链RNA为模板由反转录酶催化合成“-”链DNA（“+”链RNA→子代“-”链DNA）

4.“+”链DNA的合成便以该“-”链DNA为模板和一段RNA为引物而聚合延伸，核心样病毒颗粒成为成熟的病毒颗粒。

这时，“+”链DNA还没有合成完毕，因而造成病毒基因组两条DNA链长度不一样（子代“-”链DNA→子代“+”链DNA）

细菌染色体基因组结构

1.形成类核（nucleoid）􀂗由一条环状双链DNA分子组成细菌的染色体，并相对聚集在一起，形成一个较为致密的区域􀂗类核无核膜与胞浆分开，类核的中央部分由RNA和支架蛋白组成，外围是双链闭环的DNA超螺旋

2.染色体DNA通常与细胞膜相连􀂗连接点的数量随细菌生长状况和不同的生活周期而异􀂗在DNA链上，与DNA复制、转录有关的信号区域与细胞膜优先结合

3操纵子结构

结构基因为多顺反子，若干个功能相关的结构基因串联在一起，受同一个调节区的调节

数个操纵子还可以由一个共同的调节基因（regulatorygene）即调节子（regulon）所调控

4.结构基因都是单拷贝，rRNA基因为多拷贝基因组DNA中不编码的部份所占比例比真核细胞基因组少得多

原核生物终止子有强、弱之分􀂊强终止子：

含有反向重复顺序，可形成茎环结构，其后面为polyT结构，无需终止蛋白参与即可使转录终止􀂊弱终止子：

也有反向重复序列，但无polyT结构，需要有终止蛋白参与才能使转录终止

DNA分子组成operon）结构rRNA基因是多拷贝isogene）.DNA序列，包括插入序列和转座子DNA分子中具有多种功能的识别区域

大肠杆菌染色体基因组的结构和功能—1

•大肠杆菌基因组含有3500个基因，已被定位的有900个左右

•900个基因中，有260个基因已查明具有操纵子结构，定位于75个操纵子中

•已知的基因中，8％的序列具有调控作用

大肠杆菌染色体基因组中已知的基因多是编码酶类的基因

􀃂合成代谢酶类基因：

氨基酸、嘌呤、嘧啶、脂肪酸维生素

􀃂分解代谢酶类基因：

碳、氮化

合物

具有相关功能的基因在一个操纵子内，由一个启动子转录

•大多数基因的相对位置是随机分布的

•双向转录：

DNA两条链作为模板指导mRNA合成的机率差不多相等

•在已知转录方向的50个操纵子中，27个操纵子按顺时针方向转录，23个操纵子按反时针方向转录

•在大肠杆菌染色体基因组中，基因都是单拷贝基因

•在某种特殊环境下，需要有多拷贝基因来编码大量的基因产物

基因组上的各个基因的位置与其功能的重要性可能有一定的联系

ProkaryoteGenome

1、常仅由一条环状双链2、只有一个复制起始点3、具有操纵子结构4、编码顺序一般不会重叠

5、基因是连续的，无内含子，转录后不需剪接6、编码区在基因组中所占比例大于真核基因组，小于病毒基因组

7、基因组中重复序列少，一般为单拷贝，8、具有编码同工酶的基因9、基因组中存在可移动的DNA序列，包括插入序列和转座子10、在DNA分子中具有多种功能的识别区域

真核生物基因组特点

1.基因组DNA与蛋白质结合形成染色体，储存于细胞核内，除配子细胞外，体细胞内基因组是双份的（即双倍体，diploid），有两份同源的基因组

2.基因转录产物为单顺反子。

一个结构基因经过转录生成一个mRNA分子，再翻译生成一条多肽链

3.存在重复序列，重复次数可达百万次以上

4.基因组中不编码的区域多于编码的区域

5.大部分基因含有内含子，因此，基因是不连续的（断裂基因，splitgene）

6.基因组远远大于原核生物的基因组，具有许多复制起始点，而每个复制子的长度较小

高度重复序列highrepeatedsequence•

在基因组中所占比例随种属而异，约占10-60％，在人基因组中约占20％。

高度重复顺序又按其结构特点分为三种

种类–1反向重复序列–2卫星DNA–3较复杂的重复单位组成的重复顺序

高度重复顺序的功能

1.调节反向序列常存在于DNA复制起点区的附近。

另外，许多反向重复序列是一些蛋白质（包括酶）与DNA的结合位点

2.参与基因表达的调控DNA的重复顺序可以转录到核内不均一RNA（hnRNA）分子中，并形成发夹结构，这对稳定RNA分子，免遭分解有重要作用

3.参与转位作用：

几乎所有转位因子的末端都包括反向重复顺序，长度由几个bp到1400bp。

由于这种顺序可以形成回文结构，因此在转位作用中既能连接非同源的基因，又可以被参与转位的特异酶所识别

4.与进化有关：

不同种属的高度重复顺序的核苷酸序列不同，具有种属特异性，但相近种属又有相似性。

如：

人与非洲绿猴的α卫星DNA长度仅差1个碱基（前者为171bp，后者为172bp），而且碱基序列有65％是相同的，这表明它们来自共同的祖先

5.同一种属中不同个体的高度重复顺序的重复次数不一样，这可以作为每一个体的特征，即DNA指纹

6.α卫星DNA成簇的分布在染色体着丝粒附近，可能与减数分裂时染色体配对有关，即同源染色体之间的联会可能依赖于具有染色体专一性的特定卫星DNA顺序

中度重复序列middlerepeatedsequence

•重复数十至数万（<105）次•复性速度快于单拷贝顺序，但慢于高度重复顺序•约占基因组10-40％，种属之间差异很大（人12％）•大多不编码蛋白质，其功能可能类似于高度重复顺序•存在于结构基因之间、基因簇、内含子，大多数与单拷贝基因间隔排列•具有种特异性

•Alu家族•KpnⅠ家族•Hinf家族•多聚dＴ－dＧ家族•rRNA基因•tRNA基因•HLA基因•组蛋白基因•免疫球蛋白基因

中度重复顺序

1•短分散片段（shortinterspersedrepeatedsegments,SINES）

–重复顺序的长度：

平均长度约为300bp

–基因组中排列方式：

与平均长度约为1000bp的单拷贝顺序间隔排列

–拷贝数：

10万左右•Alu家族•Hinf家族，等

2•长分散片段（Longinterspersedrepeatedsegments,LINES）–重复顺序的长度：

平均长度为3500-5000bp–基因组中排列方式：

与平均长度为13000bp（个别长几万bp）的单拷贝顺序间隔排列–拷贝数：

1万左右•KpnⅠ家族，等

中度重复顺序——Alu家族

•含量最为丰富的一种中度重复顺序家族•单倍体人类基因组中，重复达30万-50万次，约占人基因组的3-6％

•Alu家族每个成员的长度约300bp•限制性内切酶Alu（AG↓CT）可将其切为两段（130和170bp），因而定名Alu家族（Alu序列）•Alu序列分散在基因组中（间隔区DNA，内含子），平均每5kbDNA有一个Alu顺序•Alu顺序具有种特异性

•Alu序列5’端比较保守Alu家族在基因组中广泛分布的原因可能是：

–Alu顺序先转录成RNA分子，再经反转录成cDNA，然后重新插入基因组所致

–有人认为：

Alu序列两侧存在6-20bp重复顺序，很象转座子。

能够移动

Alu家族的功能是多方面的：

–可能参与hnRNA的加工与成熟

–与遗传重组及染色体不稳定性有关

–有形成Z-DNA的能力

–可能具有转录调节作用

中度重复顺序——KpnⅠ家族

•中度重复顺序中的第二大家族，拷贝数约为3000—4800个，人体基因组中约占1％

•KpnⅠ顺序较长（如：

人KpnⅠ顺序长6.4kb），属于长分散片段，散在分布于单拷贝基因间

•限制性内切酶KpnⅠ可将其切为4个片段（1.2、1.5、1.8、1.9kb），因此得名

•KpnⅠ家族中至少有一部份通过KpnⅠ顺序转录成RNA，再逆转录为cDNA，重新插入到基因组DNA中

•3’端有广泛的同源性

中度重复顺序——Hinf家族

•Hinf家族：

以319bp长度的串联重复存在于人体基因组中

•用限制性内切酶HinfⅠ消化人体DNA，可以分离到这一片段

•Hinf家族在单倍体基因组内约有50—100个拷贝，分散在不同的区域

•319bp单位可以再分成两个亚单位，分别为172bp和147bp，它们之间有70%的同源性

中度重复顺序——多聚dT-dＧ家族•多聚dＴ-dＧ家族的基本单位是：

dＴ-dＧ双核苷酸，多个dＴ-dＧ双核苷酸串联重复在一起，分散于基因组中•在人基因组中，多聚dＴ-dＧ顺序平均长度为40bp，达106拷贝

•功能–可能是基因转变或不等交换的识别信号–多聚dT-dＧ中，嘌呤和嘧啶的交替顺序有助于Z-DNA的形成，在基因调节中起着重要作用

中度重复顺序——rRNA基因

•真核生物有4种rRNA（18S、28S、5S、5.8S）–18S、28S和5.8SrRNA基因在同一转录单位

–5SrRNA

•在低等真核生物（如：

酵母）中也和18S、28SrRNA在同一转录单位；

•在高等生物中，5SrRNA位于1号染色体，单独转录，其重复次数高于18S和28SrRNA基因

•rRNA基因通常成簇存在，而不是分散于基因组中，这样的区域称为rDNA区染色体的核仁组织区（nucleolusorganizerregion）就是rDNA区

真核基因组的另一特点就是存在多基因家族（multigenefamily）

•多基因家族是指由某一祖先基因经过重复和变异所产生的一组基因

多基因家族大致可分为两类：

•一类是：

基因家族成簇地分布在某一条染色体上，其可同时发挥作用，合成某些蛋白质（如：

组蛋白基因家族就成簇地集中在第7号染色体长臂3区2带到3区6带区域内）

•另一类是：

一个基因家族的不同成员成簇地分布不同染色体上，这些不同成员编码一组功能上紧密相关的蛋白质（如珠蛋白基因家族）

在多基因家族中，某些成员并不产生有功能的基因产物，这些基因称为假基因（pseudogene）

•假基因与有功能的基因同源，原来可能也是有功能的基因，但由于缺失，倒位或点突变等，使这一基因失去活性，成为无功能基因

在哺乳动物包括人体基因组中，存在着大量的非编码顺序。

这些顺序中，只有很小一部份具有重要的调节功能，绝大部部分都没有什么特殊功用。

在这些DNA序列中虽然积累了大量缺失，重复或其他突变，但对生物并没有什么影响，它们的功能似乎只是自身复制，所以人们称这类DNA为自私DNA或寄生DNA（parasiteDNA）

人类基因组（humangenome）人类细胞中所有遗传信息的总和由两个基因组组成

–核基因组（复杂）–线粒体基因组（简单）

重要的遗传信息存在于核基因组内

遗传信息表现——特异多肽（在胞浆核糖体上合成）

线粒体基因组（Mitochondrialgenome）双链环状DNA

基因排列高度紧凑，总长为16569bp，两链DNA的碱基组成差异很大

––重链（H链）富含鸟嘌呤––轻链（L链）富含胞嘧啶

细胞内的数目：

数千拷贝

特点：

呈母系遗传方式

––精子中仅含极小量线粒体基因组

––受精卵中线粒体基因组几乎都来自卵子

在减数分裂过程中，卵子的线粒体DNA分子完全随机地分配到两个子代细胞中

♦线粒体基因组

共含37个基因–链编码28个–链编码9个

13个可转录为mRNA，并在线粒体核糖体上翻译为多肽，参与组成氧化磷酸化系统

22个编码tRNA2个编码rRNA线粒体基因组高度压缩、约93％的顺序参与基因的％

♦编码不含有内含子，大多彼此相接，甚至部分重叠

♦唯一一个有意义的非编码区是替代环displacementloop））

♦与三链DNA结构形成相关

♦含有Ｒ链和L链转录的主要启动核基因组（Nucleargenome）

♦分布于24条不同类型的DNA双链上––22条常染色体–2条性染色体（X、Y））

♦碱基组成和基因密度的区域差异明显

♦DNA含量占总量99%以上

♦每条染色体长度50—250Mb

♦标准Giemsa染色：

有550条深浅相间区带

人类基因的组织特点♦功能相似或相关的基因常常分布在不同的染色体上（偶尔聚集在一起）♦基因的大小和内部组织差异极大––大小：

几个Kb——数百个Kb––组织：

含重复序列，常常位于编码序列，与蛋白质的重复结构形成有关♦重叠基因和基因内基因，极为罕见

编码序列仅占全部核基因组的3%♦绝大多数基因位于核基因组，但具体数字目前尚不清楚––根据突变负荷（mutationalload）和人基因的平均突变率进行理论计算，提示：

上限为100000个––根据已知基因组序列、CpG岛数目以及表达序列标记分析，估计：

总数为65000-80000个，是所有基因的99.98％

CpG岛（CpGisland）

♦基因组中有高密度的CpG二核苷酸对的单拷贝序列

♦人基因组在约40%的组织特异性表达基因的5’上游序列中含有这种序列，因此CpG岛经常被作为搜寻未知基因的一个参考标志

♦CpG岛中的C是最易被甲基化的底物，而其甲基化又与受之调控的基因的表达程度有关，因此研究CpG甲基化是研究基因调控的一个重要方面

人类基因组

多基因家族和重复顺序DNA

♦二倍体细胞的核基因组中的DNA序列通常以2个等位基因拷贝的方式存在

♦40％的人类核基因组由一组紧密相关的非等位性DNA序列构成

♦DNA序列家族：

由具有序列相似性（或同源性）的DNA构成。

实际上是一类重复序列

♦包括：

多基因家族（具有功能）

非基因的重复DNAD序列家族

多基因家族（multigenefamily）

特点：

1.各成员总的序列相似性不同，特殊序列的保守程度也不一样

2.可紧密地成簇分布（特异的亚染色体区）也可广泛地散在分布

3.RNARNA基因家族常含数目众多的家族成员

4.常含有假基因和基因片段

5.基因簇中个体基因的表达可能由共同的基因座控制区协调

6.散在分布的基因家族常含有许多加工过的假基因

基因家族

♦经典的基因家族：

各成员之间的序列高度同源，表明其在进化和功能上相关的重要特征

♦具有大而高度保守功能区的基因家族：

各成员编码的一些产物具有高度保守的功能区，这些往往在发育过程中起着很重要的作用

♦具有小段保守氨基酸基序的基因家族：

各成员的DNADNA序列可能并不明显相关，不过所编码的产物却具有共同的功能特征，存在小段保守顺序（氨基酸基序）

♦超基因家族：

其产物总的看来有相关的功能，但缺乏大片段的DNA同源序列，也无明显的保守氨基酸基序，而是大体上有共同的结构特征。

这些基因似乎进化上有亲缘关系，但与那些经典的基因家族或保守功能区／基序家族相比，亲缘关系较远，故将这些称为基因超家族

––HLA基因、TCR基因等产物与免疫系统功能相关，尽管其同源性很低，但相似的功能及总的功能区结构提示：

其同属IgIg超家族，但进化上亲缘关系较远TT基因家族

成簇基因家族：

由一个或多个位于特异亚染色体区的基因簇构成，每一基因簇常由串联基因重复事件形成，而且常可产生无功能的假基因

散在的基因家族：

各基因成员之间没有明显的结构上的关系，常常散在分布于几个染色体上

♦rRNA基因家族：

28S、5.8S5、18SrRNA基因成簇排列在一起，每个基因含60个拷贝

人类基因组计划内容

遗传图（连锁图），物理图，序列图，基因图

遗传图

•第一代标记•经典的遗传标记（蛋白质和免疫学的标记）•70年代中后期，限制酶片段长度多态性（RFLP）•第二代标记•85年，"小卫星中心"（minisatellitecore）•89年，"微卫星标记"（microsatellitemarker）•第三代标记•单核苷酸多态性标记（singlenucleotidepolymorphism，SNP）

SNP作图的一般步骤包括：

①获取DNA序列；

②从DNA序列确定序列标签位点（sequencetaggedsites，STSs）；

③扫描STSs或ESTs确定候选SNPs；

④确定SNPs；

⑤将SNPs定位于染色体特定位置。

物理图

♦内容

–测定人类基因组DNA分子的物理长度

–描述了DNA分子两个位点或染色体两个位标之间的实际距离

♦单位：

核苷酸数♦基本原理：

人类基因组打碎􀁄拼

接–可以随意研究、又能够知道研究内容所处的染色体位置

♦图距：

Mb、kb、bp作为图距

––平均图距100kb（测定40000个以上的STS））

♦路标：

DNA探针的STS序列为路标♦

构建物理图的一个主要内容：

––把含有STS对应序列的DNADNA克隆片段连接成相互重叠的““片段重叠（contigcontig）

♦以STS为路标的物理图与已建的遗传图进行对比，可以把遗传学信息和物理信息进行互相转换（如某一区域1cM1cM的遗传间距可以粗略的“折算”成某一区域1cM的物理间距）

包括:

人类基因组的不同载体DNA克隆片段重叠群图••大片段限制性内切酶切点图序列图

♦策略：

把庞大的基因组分成若干有路标的区域后，进行测序分析

♦序列分析需要用一个区域DNA片段重叠群使测序工作不断延伸，这中间的STS被用作任何两个片段（上百个bp）间的重叠区域，使分别被测的短序列进行正确的拼接

♦基本策略是建立DNA小片段的重叠群并尽可能地降低重叠部分所占的比例以提高效率和降低成本基因图

♦内容：

鉴别出占据22--5%长度的全部基因的位置、结构与功能

♦方法：

mRNA到染色体的位置

♦原理：

––生物性状和疾病由蛋白质决定；

––蛋白质均由mRNA编码（RNA聚合酶指导合成，带有多聚A尾巴）；

––mRNA通过反转录酶合成cDNAc；

––用较稳定的cDNA作为探针进行分子杂交，鉴别出与转录有关的基因。

基因图

♦根据mRNA的特点，可用与多聚AA尾巴（polyAA）互补的寡聚T）或克隆载体的相关序列为引物，对mRNA的双端尾侧的几百个bp进行测序，得到EST（表达序列标签）

意义：

在于它能有效的反映在正常或受控条件中表达的全基因的时空图

通过这张图我们可以了解某一基因在不同时间不同组织不同水平的表达

♦人类基因组计划的意义：

随

展开阅读全文