计算表观遗传学.pptx

资源描述

计算表观遗传学.pptx

《计算表观遗传学.pptx》由会员分享，可在线阅读，更多相关《计算表观遗传学.pptx（123页珍藏版）》请在冰点文库上搜索。

计算表观遗传学.pptx

第十三章计算表观遗,传学,（张岩哈尔滨医科大学）,第一节引言,一、表观遗传学与计算表观遗传学二、计算表观遗传学的研究内容三、计算表观遗传学的方法和工具四、计算表观遗传学的进展,第二节基因组的DNA甲基化,一、CpG岛的DNA甲基化调控基因的表达

（一）DNA甲基化与CpG岛

（二）甲基化对转录的调控（三）DNA甲基化的意义,

（一）DNA甲基化与CpG岛,DNA甲基化是一种发生在DNA序列上的化学修饰可以被稳定地在转录及细胞分裂前后遗传。

DNA甲基化是重要的表观遗传代码。

DNA甲基化,在哺乳动物中，大约60%-90%的CpG二核苷酸是甲基化的。

CpG中的p代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。

在哺乳动物细胞中，DNA甲基化主要发生在CpG二核苷酸中胞嘧啶的第五位碳原子上，这样的胞嘧啶也叫做5-甲基-胞嘧啶，如图所示。

CpG岛与DNA甲基化的关系,CpG二核苷酸倾向于聚集成簇，这样的区域称做CpG岛（CpGislands）。

CpG岛的特点是GC的含量及CpG的含量非常高。

CpG岛主要分布在基因的5非编码区，启动子和第一外显子区域，大约80%的基因的启动子含有CpG岛。

这些区域的CpG二核苷酸的富集表明它们处于非甲基化状态（至少在生殖细胞中），因此避免甲基化CpG带来高的突变率。

（二）甲基化对转录的调控,DNA甲基化影响转录的机制,1.DNA甲基化阻碍转录因子的结合2DNA甲基化识别染色质标记DNA甲基化募集其它蛋白引起染色质沉默DNA甲基化影响核小体定位,（三）DNA甲基化的意义,CpG二核苷酸的甲基化与重复元件沉默CpG二核苷酸的甲基化与染色体的选择性沉默DNA甲基化与组织特异表达,二、通过实验和计算方法识别CpG岛,

（一）CpG岛的定义及预测

（二）实验方法寻找CpG岛,（三）CpG岛的定位有助于发现新基因,

（一）CpG岛的定义及预测,Gardiner-Garden和Frommer长度最短200bp，GC含量至少50%，CpGo/e最小0.6。

许多启动子缺乏严格定义的CpG岛，但是有组织特异的甲基化模式，和转录活性有密切联系。

1.最初的CpG岛定义2.改进的CpG岛定义,Takai和Jones增加最短长度、CpGo/e值和GC含量分别到500bp,0.65%和55%对预测精度的影响。

通过使阈值更加严格，Alu重复元件得到最大程度的排除，但此时却排除了原来数量10%的CpG岛，这表明一些真正的CpG岛可能也被排除。

常见的CpG岛预测算法,差异取决于以下因素：

（1）任意阈值的应用；

（2）没有考虑到CpG岛的异质性；（3）基于DNA序列的预测方法忽略了DNA甲基化状态。

3.排除重复元件对CpG岛预测算法的干扰,重复元件例如“年轻”的Alu元件的碱基组成和CpG岛十分类似，这显著地增加了鉴别CpG岛的假阳性率。

大多数的多拷贝序列可以通过Repbase数据库中已知的重复类型得以剔除。

在Takai和Jones的基础上应用重复元件筛选后剔除1890个非CpG岛，从而得到更加保守的CpG岛数目的估计即27000。

4.基于窗口滑动法的CpG岛预测算法,首先准备实验得到的候选CpG岛集合或全基因组序列，然后设定窗口宽度的大小。

接着考察窗口内的序列片段是否满足CpG岛定义中的长度、GC含量和CpGo/e值中的一个或几个阈值。

一旦发现窗中的序列片段满足了CpG岛的定义，该片段就被选为候选CpG岛，同时扫描窗右移1bp。

如果扫描窗中的序列片段不满足CpG岛的定义，扫描窗右移一个窗口的长度。

如果扫描得到的CpG岛区域有重叠，则将重叠部分合并。

这种依赖于长度，GC含量和CpGo/e值的一个或全部阈值的CpG岛识别算法有显而易见的缺陷：

（1）由于这三个阈值的使用使得参数空间变得很大。

（2）预测的CpG岛的长度和数目取决于窗口的长度和步长的预设值，存在主观任意性。

（3）CpG岛的起始点一般不是CpG双核苷酸。

（4）预测和筛选过程依赖于相同的参数。

（5）方法经常需要针对特定物种进行调整。

（6）运行时间长。

窗口法,Annoat,lyszliedeatwointhdeorwig.ht,Andanalyzeagain.,Untilitmeetsthecriteria,TAhnednajguaminp.aheadandcheckthewindowadjacenttotheislandonthe3side.,Repeatasneeded,untilthenewwindowdoesnotmeettheCpGislandcriteria,Thenslidethewindowbacktowardtheisland.,KeepslidinguntilthewindowmeetsCpGislandcriteria.,削减,IOfnitcdeoietsmneetsmCepeGttihselacnrditecrriiate,rtiray,tmrimovmeionngtaobthaesenepxatiradojfafceeancthweinnddoawndaanndaalynzailnygzeagthaaint.,5.基于相邻CpG二核苷酸距离的CpG岛预测算法,CpGcluster是一种独特的方法，它并不依赖于任何CpG岛阈值，并且由于只涉及算术运算，计算速度提高很多。

工作原理是计算基因组范围的相邻CpG二核苷酸之间的距离。

该算法利用几何分布估计出该距离的理论分布，从而计算出CpG二核苷酸进行汇聚的统计学阈值（40bp）。

最终，该算法得到197727个CpG岛。

这个算法得到的CpG岛的特点是短而多，但其中包含大量的重复元件。

（1）假设有如下一条序列：

TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC

（2）CpGcluster首先找到所有的CpG双核苷酸的位置（粗体）：

TTGCGGGTCCTAGAAGTCGCCTCCCCGCCTTGCCGGCCGCCCTTGCAGCCCCGAGCCGAGCAGC（3）然后得到CpG双核苷酸的位置的列表：

4;18;26;34;38;52;57,（4）通过公式计算相邻二核苷酸之间的算术距离：

13;7;7;3;13;4（5）考虑到假设：

CpG是伯努利实验的结果，这里设成功为CpG，失败为non-CpG。

伯努利实验的概率p可以通过大量的序列算出。

令序列的长度为L，N为CpG的数目，则。

（伯努利实验，例如投掷硬币N次，最后一次正面朝上的概率，满足几何分布）。

所以临近的CpG双核苷酸的距离满足几何分布，距离d等于失败的次数。

（6）绘制长度（d）分布和几何分布的直方分布图（图13-4）。

从中，我们可以发现观测值分布和理论分布差别很大。

短距离出现的概率较大。

中位数值恰好可以作为CpG二核苷酸富集的阈值。

（7）为了计算之前步骤找到的CpG簇是CpG岛的概率，需要给出统计学p值，该p值可由负二项分布给出（伯努利实验，例如投掷硬币N次，r次正面朝上的概率，满足负二项分布）。

通过描述CpGcluster的算法原理，我们知道：

存在比随机出现CpG二核苷酸之间距离距离更短的CpG簇，通过合并重合的簇，最终得到的簇就被认为是CpG岛。

人类基因组1号染色体的邻接CpG二核苷酸之间距离的概率密度函数。

观察值的分布以空心圆圈表示，而理论分布即几何分布则用实线表示。

中位数值恰好和理论值吻合。

距离小于中位数值的两个CpG二核苷酸则被纳入CpG岛的一部分。

X轴为距离d，Y轴为概率p。

Median为中位数，Mean为均值，带圈实线代表观测值的连线，实线代表几何分布的概率密度曲线。

（来自于CpGcluster:

adistance-basedalgorithmforCpG-islanddetection）,算法,表格展示的是LRRMT1的上游序列的预测结果,6.结合功能基因组数据的CpG定位方法,大多数的预测算法和序列选择技术鉴别的CpG岛数目在24000到27000之间。

尽管这些方法之间的差别不大，但是许多鉴别出来的CpG岛在不同的预测结果中并不一致。

这种不一致的现象可以通过结合包括DNA甲基化状态和染色质修饰在内的不同类型的信息到预测方法中来而得以解决。

在CpG岛预测算法中融合表观遗传信息和基因组属性可能有利于探测方法去除一些看起来有些任意的阈值。

例如，Bock等人使用了DNA结构，组蛋白修饰，DNA甲基化，转录因子结合谱，重复元件，进化保守，DNA序列模式等信息定位人类基因组CpG岛，是目前较好的CpG岛定位方法。

但该方法很难扩展到非人类的物种中，因为注释数据在其它物种并不全面，甚至十分缺乏。

（二）实验方法寻找CpG岛,为了克服算法带来的问题，Illingworth等人最近开发了一项CXXC亲和纯化技术（CAP，CXXCaffinitypurification）以富集非甲基化的CpG富集的DNA片段（CpG岛）。

该技术使用了半胱氨酸富集的对非甲基化的CpG位点有高亲和性的CXXC3结构域。

CXXC结构域对只包含甲基化的CpG位点或缺乏CpG位点的DNA片段几乎没有亲和性。

从小鼠Mbd1中得到的重组的CXXC结构域对非甲基化的CpG位点有高的结合特异性，并被用于从全基因组DNA中提取CpG岛。

他们从人类血液中提取了超过17000个CpG岛。

实验方法确定的基因组范围CpG岛图谱,来自于：

ANovelCpGIslandSetIdentifiesTissue-SpecificMethylationatDevelopmentalGeneLoci,（三）CpG岛的定位有助于发现新基因,CpG岛是重要的调控元件，是基因起始的标志，可用于新基因的发现。

同时，CpG岛通常是不被甲基化的，作为管家基因的重要标志之一。

http:

/202.97.205.61:

8080/cpgmi/,三、实验检测技术测定DNA甲基化状态

（一）DNA甲基化的检测方法

（二）基因组范围的DNA甲基化检测方法（三）基于高通量测序的DNA甲基化检测方法（四）高通量检测技术的选择策略,

（一）DNA甲基化的检测方法,目前常用的DNA甲基化检测方法是将待检序列中甲基化的胞嘧啶转化为其它碱基组成的变化。

最新的检测方法还用到了基因微阵列（microarray）。

限制性内切酶法重亚硫酸钠法亲和纯化,1.限制性内切酶法,2.重亚硫酸钠法,重亚硫酸钠（sodiumbisulfite）法,3.亲和纯化,

（二）基因组范围的DNA甲基化检测方法,高通量测序是最新发展起来的但却是最有前途的全基因组DNA甲基化分析方法。

高通量测序技术的出现，使得产生大量序列信息的时间和成本均要低于桑格法。

目前，两种高通量的测序平台最为流行：

一种是454生命科学公司开发的焦磷酸测序方法，另外一种是Illumina前身的Solexa开发的基于荧光核苷酸的系统。

（三）高通量检测技术的选择策略,DNA甲基化大规模分析可用平台一览表,四、计算方法预测DNA甲基化,

（一）从DNA序列预测胞嘧啶甲基化,1CpG位点甲基化预测,预测的原理如下：

基于n个样本xi,yi,i=1,n（其中xi为d维特征构成的向量，yi取自-1,1而代表类别，-1作为甲基化标记，1作为非甲基化标记）作为训练数据，SVM利用下面的判别函数进行训练和检验：

。

其中，和b为待估参数，使得判别函数更好地拟合训练数据。

当进一步增加窗宽时，SVM的性能并没有显著地提高。

由于单个CpG位点的甲基化状态一般不是一成不变的，因此Methylator几乎没有实用价值，不能满足组织特异分析的要求。

实际上，目前尚缺乏有效的CpG位点的预测工具。

2基于序列的CpG岛甲基化判别,MethCGI先进行了一些预处理，来去除由于实验误差产生的错误数据。

主要就是甲基化和非甲基化区域的边界精确定位问题，由于DNA的缺失或者后期测序的问题，数据中甲基化和非甲基化片段的边界比较模糊,所以在初始边界附近定位限制性内切酶的识别位点。

灰色直线代表DNA序列，黑色竖条代表CpG位点，双斜线的位置表示实验数据中的初始边界位点，而箭头指向的位置就是最靠近初始边界的酶切位点。

在线预测工具MethCGI,MethCGI的输出界面如图所示，第一列是序列名称，第二列是CGIF的起始位置，第三列则是CGIF的终止位置，第四列是预测的甲基化状态，第五列是一个表示甲基化倾向性的值methylation_score），即100个分类器结果的平均值（预测结果：

容易甲基化用-1表示，不易甲基化用+1表示）。

需要指出的是，MethCGI预测结果实际上是对应一个个CpG岛片段给出的。

3.使用基因组特征有助于识别CpG甲基化,为了鉴别序列相关的DNA属性和CpG岛甲基化之间的关系，Bock等人汇集了1184个和序列直接或间接相关的DNA属性，对人淋巴细胞的第21号染色体的甲基化状态已知的132个CpG岛构建判别模型.,

（二）借助其它表观遗传修饰谱预测CpG岛甲基化,结合其它表观遗传学信息可以提高CpG岛预测精度。

最近的一项研究使用SVM并整合全基因组范围的ChIP-Seq数据进行CpG岛甲基化预测。

此外，结合序列特征，重复元件及转录因子结合位点等信息进一步增强了SVM的分类性能。

还发现添加了组蛋白甲基化修饰之后，该预测模型得到了更高分类正确率，同时还发现了4种显著影响CpG岛甲基化的组蛋白修饰（H3K4me1、H3K4me2、H3K4me3以及H3K9me1）。

来自于HistonemethylationmarksplayimportantrolesinpredictingthemethylationstatusofCpGislands,算法间比较,

（一）基因组整体低甲基化,重复元件所在基因组区域在正常基因组中是甲基化的，这会保证基因组的稳定性，防止转座和基因断裂的发生。

在癌症基因组中会发生全局性的基因组去甲基化，这一现象被成为次甲基化（hypomethylation）。

次甲基化可以进一步导致癌症基因组的遗传性变异，这通常是肿瘤发生的特征。

在CpG岛超甲基化的同时，癌症基因组经历了全局性的次甲基化。

相比正常基因组，大约20%60%的5-甲基-胞嘧啶的甲基基团脱落。

癌症发展过程中经常伴随基因转录区域的整体性甲基化缺失以及重复元件DNA的去甲基化。

五、异常DNA甲基化参与了疾病的发生,

（二）印记丢失,DNA甲基化还为生殖细胞特异基因和组织特异基因的表达提供表观遗传控制。

基因组印记需要父本和母本等位中的一份发生超甲基化而建立单等位表达的模式。

类似地，在正常情况下女性基因组中的一条X染色体发生异染色质化。

在DNA甲基化的调控作用中，印记丢失（lossofimprinting）是许多癌症基因活化的一种机制。

（三）基因超甲基化是癌症的标志,超甲基化被认为是所有人类癌症的一般标志，它几乎影响所有细胞通路。

许多癌症超甲基化基因本身就是肿瘤抑制基因。

例如许多具有抗增殖作用的基因的转录被癌症细胞系的CpG岛超甲基化所抑制。

使用表观基因组技术有助于鉴别出癌症异常甲基化基因，使用生物信息学技术可以进一步分析受累的通路。

在不同的肿瘤类型中，CpG岛超甲基化基因通常是不同的。

每一种肿瘤亚型可能被一些超甲基化基因或表观遗传学标记所区分，这通常是癌症诊断十分重要的标志。

MeInfoText和PubMeth数据库汇总了癌症特异的异常甲基化信息。

使用生物信息学方法有助于进一步扩充已知的异常甲基化基因列表的信息。

第三节组蛋白修饰的表观基因组,一、组蛋白密码是重要表观遗传标记之一

（一）核小体与组蛋白修饰核小体与组蛋白组成染色质的基本单位是核小体（nucleosome）。

每个核小体均由5种组蛋白共同构成。

组蛋白是指所有真核生物的细胞核中，与DNA结合的碱性蛋白质的总称。

组蛋白修饰位点,来自UsingGenomicstoStudyHowChromatinInfluencesGeneExpression,2.组蛋白修饰与转录,关于组蛋白修饰在转录中的作用，已经有许多模型如电中性模型、组蛋白密码以及信号通路模型被提出来。

不同的组蛋白修饰类型的作用不尽相同。

组蛋白乙酰化主要促使基因表达和DNA复制，使组蛋白乙酰化定位的基因得到动态的调控。

组蛋白去乙酰化则使基因沉默。

组蛋白的磷酸化可以改变组蛋白的电荷，对基因转录、DNA修复和染色质凝聚等过程起调控作用。

组蛋白的泛素化可以降解组蛋白的泛素标记，启动基因表达。

3.组蛋白修饰的命名法,一个组蛋白修饰的精确表示由三部分组成：

组蛋白名称+组蛋白尾巴上的位点+修饰（个数）。

例如基因转录起始位点富集普遍存在H3K4me3修饰，它是组蛋白H3上，具体的位置为第四个位置即赖氨酸（Lysine,K），该位置存在三个甲基基团。

又如H3K9ac，代表组蛋白H3上第九个位置即赖氨酸上发生的乙酰化修饰。

又如H3K9me，则表示组蛋白H3上的第九位置上的甲基化修饰，但并没有指定甲基集团的数目，则泛指组蛋白甲基化修饰，这些模糊记法已被广泛地使用。

（二）激活性和抑制性的组蛋白修饰,根据对基因起到激活还是抑制作用，组蛋白修饰可以大致分为两类：

激活性的组蛋白修饰和抑制性的组蛋白修饰。

激活性的组蛋白修饰中最常见的是H3K4me。

抑制性的组蛋白修饰中最常见的是H3K27me。

（三）组蛋白密码,1.动态而又稳定的组蛋白密码组蛋白的氨基酸残基可以接受许多种化学修饰，包括甲基化和乙酰化等修饰。

质谱分析检测到组蛋白H2A有13个可以接受修饰的位点，H2B，H3和H4则分别有12个，21个和14个可以接受修饰的位点。

每个氨基酸残基位点可以发生至少一种化学修饰。

2.细胞分化过程中的组蛋白密码,组蛋白修饰的调控在许多生理过程中起到重要作用，这其中就包括细胞分化。

研究发现组蛋白乙酰化对维持细胞的未分化和多能状态十分重要。

使用组蛋白去乙酰酶抑制剂有助于维持干细胞的多能性（pluripotency）。

相反，用去乙酰酶抑制剂刺激人类成熟细胞或癌症细胞会诱导分化的进行。

因此，看起来表观遗传调控对于细胞成熟至关重要。

到底是什么类型组蛋白修饰或组蛋白修饰组合控制分化呢？

如前所述，组蛋白乙酰化有助于保持细胞的多能性。

细胞分化过程中的组蛋白修饰变化,二、测序技术提供了基因组范围组蛋白修饰的分析方法,

（一）测定组蛋白修饰的高通量技术

（二）分析基因组范围的组蛋白修饰数据,

（一）测定组蛋白修饰的高通量技术,ChIPSAGE,来自Genome-wideapproachestostudyingchromatinmodifications,ChIPchipChIPSeq,ChIP,

（二）分析基因组范围的组蛋白修饰数据,1.高通量组蛋白修饰分析工具,TilingArrayTileMap基于模型的瓦式芯片分析算法（Model-basedanalysisofTilingarrayalgorithm,MAT）。

ChIP-SeqCisGenomeMACS,2.组蛋白修饰峰值探测,和其它基于ChIP的高通量技术一致的是，从ChIP-Seq标签数据鉴别出可靠的组蛋白修饰谱等价于寻找一段基因组区域内的统计学显著的组蛋白修饰标签的峰。

一个最直接的想法是，对于一段长度一定的基因组区域来说，包含R个序列标签可以从统计学水平支持这段区域被组蛋白修饰所定位。

一般原理,构造背景分布：

泊松分布例：

人类基因组gsize=3.0E9*0.8=2.4E9窗宽w基因组期望的标签数（CD4+T细胞H3K9me3）求使0.01,当R=3时，p=0.0021，满足要求。

所以，以w为窗宽，将基因组打碎，以d为步长，移动窗口，找出满足大于3个标签的窗口，合并后即为组蛋白修饰H3K9me3定位区域。

三、组蛋白修饰与其他表观遗传修饰存在协同调控关系,

（一）DNA甲基化和组蛋白修饰的相互作用

（二）通过贝叶斯网络重构DNA甲基化和组蛋白修饰协同调控基因表达网络,四、组蛋白修饰异常与人类疾病,

（一）组蛋白修饰模式的改变被直接和癌症的发展相联系

（二）组蛋白修饰与其它疾病（三）食品营养与癌症表观遗传学,第四节染色质的重塑,一、染色质重塑和核小体

（一）核小体是所有染色质的亚基

（二）核小体有共同的结构二、核小体定位研究

（一）核小体相位检测

（二）核小体定位的计算方法研究,一、染色质重塑和核小体,组构形式：

致密的染色质中，大多数DNA序列在结构和功能上是没有活性的，只有少数DNA序列是活性序列。

染色质的一般结构是怎样的?

功能DNA序列和非功能DNA序列之间有什么区别?

遗传物质的总包装比很大,这说明DNA不可能直接包装在染色质的最终结构中,而一定存在着一种“组构形式”。

这种组构形式就是核小体。

在分裂间期细胞核里的常染色质和异染色质，以及有丝分裂的染色体中，核小体都是其固有成分。

核小体的构造形成了DNA的一级组构，其包装比约为6。

核小体的成份和结构已经研究得很清楚了。

染色质重塑诱导染色质结构改变的一般过程重塑包括多种变化,一般指染色质特定区域对核酶稳定性的变化重塑因子调节机制假设：

一个转录因子独立地与核小体DNA结合，然后再结合一个重塑因子,导致附近核小体结构发生稳定性的变化,导致其他转录因子的结合,这是一个串联反应的过程由重塑因子首先独立地与核小体结合,不改变其结构,但使其松动并发生滑动,这将导致转录因子的结合,从而使新形成的无核小体区域稳定核小体定位是染色质重塑的重要过程,核小体组成组蛋白含量,双螺旋DNA在圆柱形八聚体表面盘绕两圈的示意图,染色质结构的基本单元核小体,二、核小体定位研究,核小体定位可能通过两种方式实现内部途径:

每个核小体都贮存在特殊的DNA序列上外部途径:

第一个核小体在特殊的偏好位点组装。

一个引起核小体定位的优先起始位点会形成排斥核小体结合的区域，排斥区域将提供允许邻近的核小体定位的界线。

核小体和DNA的相互关系处于动态变化中核小体在DNA双螺旋上的位置常常被DNA结合或DNA弯曲状态等“屏障物”所限定，使核小体常出现在含有启动子或调控元件的区域附近核小体定位在不同研究中被毋庸置疑地确定是关键,

（一）核小体相位检测,微球菌核酸酶-southern印迹法利用核小体结构对DNA的保护作用，使用微球菌核酸酶（micrococcalnuclease,Mnase）消化基因组DNA，然后用southern印迹法进行分析。

（二）核小体定位的计算方法研究,1、支持向量机方法2、概率模型方法3、整合参考图谱方法4、其它方法5、软件,支持向量机方法,Pham等人利用支持向量机（SVM）的方法对酵母中核小体的定位进行了预测，根据分类正确率选择了所有的4-mer和5-mer核苷酸组合作为特征，得到86%的准确率。

缺陷是使用了500bp的周围序列来统计特征，我们知道一个核小体占据的DNA序列仅为147bp，而连接区的DNA序列为8-114bp，这样一段500bp的局部序列会跨越2个核小体，以此预测核小体定位就显得牵强。

HeatherE.Peckham等人也使用支持向量机方法准确预测了实验确定的核小体位置在酵母的具有较好特征的启动子区域，分析表明只有一个子集的核小体有可能被定位通过内在的序列信号。

概率模型方法,Segal等人对酵母全基因组的核小体定位进行了标记，在此基础上通过建立概率模型能够对酵母活体内50%的核小体定位进行预测。

结果表明基因组编码了一个内在的核小体组织，该组织能解释大约50%的活体内的核小体定位。

最后的模型还借鉴了热动力学模型的思想，

展开阅读全文