第3讲基因环境交互作用研究概况.docx

上传人:b****4 文档编号:5479848 上传时间:2023-05-08 格式:DOCX 页数:25 大小:65.99KB
下载 相关 举报
第3讲基因环境交互作用研究概况.docx_第1页
第1页 / 共25页
第3讲基因环境交互作用研究概况.docx_第2页
第2页 / 共25页
第3讲基因环境交互作用研究概况.docx_第3页
第3页 / 共25页
第3讲基因环境交互作用研究概况.docx_第4页
第4页 / 共25页
第3讲基因环境交互作用研究概况.docx_第5页
第5页 / 共25页
第3讲基因环境交互作用研究概况.docx_第6页
第6页 / 共25页
第3讲基因环境交互作用研究概况.docx_第7页
第7页 / 共25页
第3讲基因环境交互作用研究概况.docx_第8页
第8页 / 共25页
第3讲基因环境交互作用研究概况.docx_第9页
第9页 / 共25页
第3讲基因环境交互作用研究概况.docx_第10页
第10页 / 共25页
第3讲基因环境交互作用研究概况.docx_第11页
第11页 / 共25页
第3讲基因环境交互作用研究概况.docx_第12页
第12页 / 共25页
第3讲基因环境交互作用研究概况.docx_第13页
第13页 / 共25页
第3讲基因环境交互作用研究概况.docx_第14页
第14页 / 共25页
第3讲基因环境交互作用研究概况.docx_第15页
第15页 / 共25页
第3讲基因环境交互作用研究概况.docx_第16页
第16页 / 共25页
第3讲基因环境交互作用研究概况.docx_第17页
第17页 / 共25页
第3讲基因环境交互作用研究概况.docx_第18页
第18页 / 共25页
第3讲基因环境交互作用研究概况.docx_第19页
第19页 / 共25页
第3讲基因环境交互作用研究概况.docx_第20页
第20页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

第3讲基因环境交互作用研究概况.docx

《第3讲基因环境交互作用研究概况.docx》由会员分享,可在线阅读,更多相关《第3讲基因环境交互作用研究概况.docx(25页珍藏版)》请在冰点文库上搜索。

第3讲基因环境交互作用研究概况.docx

第3讲基因环境交互作用研究概况

基因-环境交互作用研究概况

南京医科大学王守林

一、概述

疾病都是在致病因素的损伤与机体的抗损伤作用下,因机体稳态调节紊乱而发生的异常生命活动过程。

致病因素主要是来自机体内在或外在的一些因素,是引起疾病发生的必不可少的因素,像传染病那样用单一因素来解释其他疾病的发生已不能满足今天人类对致病因素的认识,许多疾病的发生是遗传因素和环境因素综合作用的结果。

复杂疾病一般由多种遗传与环境因素以及它们的相互作用造成的,在人群中比较常见的,如糖尿病、肥胖症、骨质疏松症、高血压、心血管疾病、自身免疫性疾病等。

复杂性疾病和单基因疾病的一个最显著的区别在于,它不依照经典的孟德尔模式遗传。

在复杂性疾病中,很多位点相互作用并且和环境因素一起影响疾病的形成。

疾病的临床表型一般是几种不同的中间表型的复合体,这些中间表型背后有不同的遗传和环境因素的作用。

复杂性状疾病具有以下特点:

遗传模式尚未确定、群体遗传异质性强、外显率低、多基因参与、单一基因作用微弱,同时还受一组环境因素的作用。

遗传因素和环境因素对复杂疾病的作用的分析方法有比较成熟和完备的理论和实践基础,但遗传因素与环境因素交互作用研究方法还不是很成熟。

有证据表明,很多复杂疾病(如:

肿瘤、肥胖、高血压等)实际是多基因与环境交互作用的共同结果,因此如何正确分析和评价基因和环境的交互作用在复杂疾病病因学上的作用就显得至关重要。

此外,对于认识和消除致病因素,对疾病的预防、诊断和治疗也具有重要意义。

(一)遗传变异—内因

遗传变异几乎与所有的疾病发生有关,基因在有序调控机制下的正常表达是健康的基础。

某个或某些基因的突变、缺失或调控障碍,使相应的蛋白质结构或功能发生变异,导致细胞对环境改变的应答反应失常并引起疾病发生。

遗传变异至少部分解释了对暴露于同样环境因素之后的这种患病危险的个体差别。

由遗传基础决定个体患病的危险,称为遗传易感性,而由环境因素决定个体患病的危险,称为获得易感性。

遗传易感性是多基因遗传中使用的一个特定概念,易感性高,患病的可能性就大;易感性低,患病的可能性就小。

易感性的变异像一般多基因遗传性状那样,在群体中呈正态分布。

一个群体中大部分个体的易感性都接近于平均值,易感性很高和很低的个体数很少。

当一个个体的易感性达到一定的限度后,这个个体就将患病,易感性的此限度称为阈值。

在一定的环境条件下,阈值即代表患病所需的致病基因的最低数量。

(二)环境因素—外因

遗传变异本身不引起疾病,但影响一个人对环境因素的易感性。

换句话说,疾病本身并不遗传,而是遗传对环境因素某效应的一组易感因素产生了影响,因此遗传因素可影响某疾病的发生危险。

这也就解释了,为什么相同环境因素影响的个体具有不同的患病风险。

(三)基因-环境交互作用

交互作用又称为效应修饰,它分为统计学意义上的交互作用和生物学意义的交互作用。

当两种或两种以上暴露因素同时存在时,其所致效应不等于它们单个作用相联合的效应时,则称因素之间存在交互作用,当前者大于后者时称为正交互作用,说明两种或多种因素同时存在时效应增强,其生物学意义为协同作用;但前者小于后者时称为负交互作用,说明两种或多种因素同时存在时效应降低,其生物学意义为拮抗作用。

遗传-环境交互作用具有两层含义:

不同基因型的人群中,环境暴露具有不同的患病风险;不同环境暴露的人群中,不同的基因型具有不同的患病风险,即为在携带不同的遗传易感基因型人群中,环境因素对肿瘤的效应有差别;或是在不同的环境暴露下,某易感基因型的效应有差别。

基因-环境交互作用是与疾病的发病机制和临床表现有关的一种客观存在的作用,在混杂被控制的情况下依然存在。

一般说来,复杂疾病的发生与发展并不能完全由遗传变异来解释,而应该理解为遗传变异和环境因素共同作用的结果;即使是病因明确的环境性疾病如慢性苯中毒也存在遗传易感性,甚至所谓的单基因病实际上也是由于遗传因素和环境因素交互作用才发病的。

例如,苯丙酮尿症起因于一个遗传变异导致苯丙氨酸代谢障碍,其特征是在正常的蛋白质摄取后,苯丙氨酸累积并导致中枢神经系统的损伤。

然而,只有当遗传变异(苯丙氨酸经化酶缺乏)和环境的暴露(饮食的苯丙氨酸)同时存在时,苯丙酮尿症才会发生。

每个基因与疾病之间可能只存在弱关联,并不存在主基因效应,这种弱效应更容易受到外部环境的影响;如果忽略了基因与环境之间的交互作用(包括基因-基因、基因-环境的交互作用),就无法真实、准确地描述遗传变异的效应,也就出现了对同一种疾病易感位点的研究,在不同的研究者之间产生相互矛盾结果的现象。

近几年来,人们已逐渐认识到研究基因-基因、基因-环境间交互作用对准确把握复杂疾病的发生与运行机制十分有益,正如Hunter指出的那样[1],研究基因-基因、基因-环境交互作用,对研究复杂疾病的遗传效应至关重要:

(1)能增强统计遗传学检测方法的检验功效;

(2)能更准确地估计影响复杂疾病的群体遗传效应和环境效应;(3)能更好地揭示复杂疾病的机制,并解释环境暴露是怎样影响到生物信息通路的功能:

(4)通过揭示环境因素的改变如何影响到生物信息通路的反应,可为疾病的预防和治疗提供全新的策略。

但是,迄今为止,许多疾病的遗传危险因子尚未被识别,而且基因与其他基因、基因与环境因素之间的复杂交互作用仍未阐明。

为进一步描述这些因素和它们的交互作用,必须进行针对性的流行病学病因研究和临床研究。

随着对遗传变异理解的深入,我们必然也增加对环境因素的认识。

最终,遗传信息必将用于制定对高危险个体和群体的适当干预策略。

 

二、研究内容

(一)预测基因-环境交互作用模型

环境因素和遗传因素如何相互作用从而影响发病风险,其作用机理和模式还不清楚。

Ottman[2]提出了五种交互作用模式(图1),基本概括了遗传和环境因素的作用情况。

模式A中,易感基因导致或促进了环境因素的作用,环境因素的效应在没有易感基因的作用下也可以显现,暴露效应不会因为基因型而改变,实际上这并不是一种交互作用。

模式B中,易感基因对个体没有直接产生效应,只是加大了环境因素的效应。

模式C中,环境暴露放大了易感基因的效应,但它对个体没有直接的作用。

模式D中遗传和环境因素都是疾病危险增加所必需的。

模式E中,遗传和环境因素对疾病都有各自的效应,如果它们同时存在,其效应将大于或小于单独存在时的效应。

图1遗传与环境暴露之间关系的5种模型

(二)评价基因-环境交互作用的相对危险度

在有限的意义上,模型b、c、d和e包括了基因-环境交互作用所有可能的模型组合。

它们的个体效应对于疾病危险、遗传和暴露有4种可能的组合:

(1)有暴露效应但无遗传效应(RR10);

(2)有遗传效应但无暴露效应(RR01);(3)既无遗传效应也无暴露效应(RR00);(4)兼有遗传和暴露两者的效应(RR11)。

如果我们把这些交互作用加入此4种可能性,结果分别是模型b、c、d和e之一,各个模型所预期的交互作用如表1所示。

表1在基因-环境交互作用的各个模型中所预期的相对危险度

风险模型

高危险基因型

非高危险基因型

暴露

RR11

未暴露

RR01

暴露

RR10

未暴露

RR00

(a)遗传增加暴露的表达

>1

1

>1

1

(b)遗传加重暴露的表达

>>1

1

>1

1

(c)暴露加重遗传效应

>>1

>1

1

1

(d)遗传和暴露均为必要

>1

1

1

1

(e)遗传和暴露都影响危险度

?

?

>1

>1

1

>1表示比较的危险超过1.0,>>1表示危险显著增加

在模型b、c和d中,不管患病危险是以相加或相乘的刻度来衡量,交互作用总是存在的。

然而,模型e包含有和没有交互作用两种情形。

而且,衡量刻度的选择将决定是否有特指的交互作用。

三、研究策略

方法学方面,研究基因之间、基因与环境因子之间的统计交互作用的方法进展很快。

从研究设计类型上看,能够用于统计交互作用的设计类型有:

(1)队列研究;

(2)无关个体病例对照研究,包括成组设计的病例对照研究和配比病例对照研究、两阶段病例对照研究等;(3)有关个体病例对照研究,包括病例父母亲对照研究、病例同胞对照研究、扩展同胞对照研究;(4)无关和有关个体的联合病例对照研究;(5)单纯病例研究;(6)双生子研究;(7)连锁分析;(8)分离分析;(9)连锁与分离的联合分析;(10)不完全病例-对照研究。

这些方法在分析交互作用时各有优缺点,又相互优势互补。

1、病例对照研究

传统的病例对照研究是研究遗传-环境交互作用最常用的一种方法。

分析时以未携带易感基因的非暴露组为参照,OR为1,计算各种组合的OR值[5,6]。

这一方法首先用于两个环境因素的交互作用研究,后来逐渐应用于遗传-环境交互作用。

传统的病例对照研究可以计算每一个危险因素的主效应及其交互作用效应,但在研究遗传因素或者遗传与环境交互作用时,它并不是最佳的研究方法。

首先是人群分层偏倚。

该方法的潜在问题是当病例和对照遗传背景不同时,会由于这一混杂因素而不能对遗传作用或者遗传与环境交互作用做出正确估计。

当除遗传因素外的其他因素(例如,环境因素或者其他基因)导致患病,且这些因素在各个亚人群中分布也不同时,则有可能由于遗传因素与其他因素的相关而得到遗传与疾病之间的虚假关联结果。

二是所需样本量大。

评估交互作用所需的样本量一般是评估相同大小主效应所需样本量的4倍。

因此很难用于暴露率低或罕见基因的疾病,因为过小的暴露率会使所需样本量过大,以致无法实施。

三是对照组基因信息较难得到(生物样本采集困难)。

2、病例-病例研究

又称为单纯病例研究或病例系列研究。

此研究方法与传统的病例对照类似,也是按是否携带易感基因将病例分为两组,有易感基因组成为新的病例组,而未携带易感基因者则为新的对照组,分析方法有计算OR值和可信限或用多因素回归模型控制混杂。

病例-病例研究的最大优点在于不需要“无病的人”来做对照,使研究易于实施。

很多学者也从单纯病例研究设计、样本大小、检验效能等进行了相关分析与研究,认为单纯病例研究可以作为分析基因与环境交互作用的一个较好的选择。

Piegorsch[7]等从理论可行性上对病例-病例研究进行了分析,认为当人群中基因(G)与环境因素(E)相互独立,且所研究疾病发病率很低时,以病例为基础进行交互作用分析从理论是可行的,即使没有对照组也可以估计G与E之间的交互作用,并且结果精确度要优于传统的病例对照研究。

Yang[8]等比较了同等条件下单纯病例研究与病例对照研究所需要的样本大小及检验效率,发现前者可大大节省样本含量,并且估计精度高,检验效能高。

病例-病例研究的一个重要前提就是所研究基因和环境因素要相互独立,但在实际研究中很难判断所研究的两个因素是否相互独立。

因此,这个前提条件是否成立以及如何检验是目前争论和研究的一个焦点。

如果不满足这个条件,研究结果就会带有偏倚,并且偏倚大小与关联程度成正相关。

Albert[9]等通过模拟检验发现单纯病例研究结果与独立性假设密切相关。

如果基因与环境之间存在关联,即使是很小的关联,I类错误将被放大,导致虚假联系。

他们认为,只有相当的经验数据表明基因和环境因素满足独立性要求时,单纯病例研究才是一种有效的研究方法;如果没有这种证据时,对于单纯病例研究结果(估计值、可信限等)的解释要谨慎。

对于独立性的检验,有学者在研究环境危险因素与基因之间的交互作用时,同时收集病例和对照信息,在对照人群中确认二者相互独立,再进行单纯病例研究。

3、病例父母对照研究

病例父母对照研究用病例的父母作为对照组,寻找与疾病发病有关的遗传标志或与其相邻位点上连锁不平衡的等位基因,评估环境致病因素与基因型之间的交互作用。

根据病例组和对照组之间相对风险的计算方法不同,病例父母对照研究模型分为三类:

基于基因型的单体型相对风险分析(GHRR)、基于单体型的单体型相对风险分析(HHRR)、传递/不平衡检验(TDT)。

在交互作用研究中应用较多的是TDT,研究者将病例按照环境因素情况进行分层,分析易感基因传递频率的差异,从而分析环境致病因素与基因型之间的交互作用[10]。

在研究基因、环境与肿瘤的关系时,如果所研究疾病与种族、民族、血统有关,对照的选择就尤为重要,否则就会导致偏倚或混杂[11]。

病例父母对照设计可以克服遗传因素中种族差异的混杂作用,减少由于遗传人群结构(包括人群分层和混杂)所造成的偏倚[12],这正是传统病例对照研究所不能解决的问题。

此外,在使用这种设计中,病例的父母亲比随机对照有更高的参与率。

病例父母亲对照设计可以较好地来研究遗传和环境的交互作用,而且所需的样本含量较小。

模拟检验显示[10]病例父母亲对照研究比传统的病例对照研究的效率要高,尤其当易感等位基因外显率罕见和环境危险因素对未携带易感基因的患者作用较大的时候。

病例父母对照研究有两个前提条件,否则会产生偏倚。

首先必须服从孟德尔遗传规律,遗传效应的评价基于观测值与符合孟德尔遗传规律时的期望值之间的偏差,这是病例父母对照研究的理论基础。

其次是当双亲具有不同基因型时,子女的暴露状态与其候选位点的基因型是相互独立的。

该方法的缺点是当双亲的基因型与影响生育的疾病有关时,对照组不能代表所研究的人群。

其次,该方法不能评估环境暴露的独立效应,只能估计暴露者与非暴露者基因型是否存在差别。

第三是TDT法区分不出由于连锁不平衡造成的关联与标记基因本身即疾病易感性所造成的关联。

4、病例同胞对照研究

该设计也是以家系为对照的一种病例对照研究,以患者及其未患病同胞为研究对象,将同胞作为对照,通过比较同胞的等位基因或者基因型,来检测遗传标志是否与疾病位点基因关联或者连锁及基因与环境是否有交互作用[13]。

与病例父母对照一样,该设计也可以有效地避免人群分层混杂现象。

其次是资料容易获得,对于肿瘤等晚期发作的疾病来说,测定患者父母的基因型非常困难,有时候甚至是不可能的。

因此,用患者同胞的信息来推断患者父母的基因型,而且同胞比父母对照更易于获得相关调查资料。

病例和未患病同胞的基因来源于相同的亲代,二者之间等位基因频率的差别要小于随机人群中抽取的发病和未发病者之间的差别。

因此,实施过程中容易出现匹配过度。

没有同胞或不能获得同胞信息的病例不能纳入研究,容易损失信息。

四、研究方法

基因与环境因素的交互作用在方法学上取得了很大的进展,但也存在着需要进一步解决的问题和重点关注的领域,一是由于易感基因携带率、环境因素暴露率等比较低,研究所需要的样本量大,目前相关病例与对照研究的平均样本量为150~300例。

有学者认为,比较准确的研究基因因素的主效应,样本量要达到500~2000例,需要扩大样本量[14]。

二是为了全面评估基因和环境因素的效应,应当对相加模型和相乘模型条件下的效应情况都进行研究,分析其主效应和交互效应,这也对样本量大小提出了要求,并对研究方法提出了要求。

三是有关方法检验效率和检验效能的研究很少。

从分析方法上看,有叉生分析、多因素Logistic回归模型、多因子降维法和基于复合连锁不平衡的交互作用分析方法。

(一)叉生分析法

叉生分析[3]是遗传流行病学研究中分析基因-环境交互作用的最基本的方法之一,群体病例对照研究、病例父母亲对照研究、病例同胞对照研究、队列研究设计类型的资料均可用叉生分析方法分析基因与环境之间的交互作用。

表2所示的是2*4叉生分析是基因与环境因素相互作用研究中的基本研究单元,它表示基因(G)、环境因素(E)均为二分类变量而组成的4种可能的组合表。

同时暴露于两因素相对于同时不暴露于两因素的危险性(比值比,OR)记为ORge(简记为A);单独暴露于基因或环境因素的危险性分别记为ORg、ORe(分别简记为B、C);两因素均未暴露的病例和对照组作为共同参比组,OR=1。

表2基因(G)与环境因素(E)因素作用的2*4叉生分析

基因

(G)

环境因素

(E)

病例组

对照组

OR值

意义

+

+

a

b

ORge=A=ah/bg

G、E联合作用效应

+

c

d

ORe=B=ch/dg

G单独作用效应

+

e

f

ORe=C=eh/fg

G单独作用效应

g

h

1

共同对照

表中基因与环境联合作用的效应不仅包括两者分别作用的效应,还可能包括基因与环境作用的叠加,也可能呈现基因与环境作用的相乘效应。

通过不同的模型,可以判别基于不同模型的两因素间交互作用是否存在及其大小。

那么在叉生分析中,交互作用又是怎样被度量呢?

由于交互作用的存在与否,与所选择的模型密切相关,根据Rothman[4]提出的基于相加模型计算交互作用的指标,有以下几种:

1.交互作用指数(thesynergyindex,S)

S=(A-1)/[(B-1)+(C-1)]

意义:

当S=1时,无交互作用;S≠1时,基因(G)与环境(E)存在相加模型交互作用;S>1时,两因子间有正交互作用;S<1时,两因子间有负交互作用;S的绝对值越大,基因(G)与环境(E)之间的交互作用越强。

2.交互作用归因比(attributableproportionofinteraction,AP)

AP=[A-(B+C-1)]/A

意义:

AP表示总效应中有多大比例归因于基因(G)与环境(E)之间的交互作用。

AP的绝对值越大,基因(G)与环境(E)之间的交互作用越强。

3.纯交互作用归因比AP*

AP*=[A-(B+C-1)]/(A-1)

意义:

AP*表示由基因(G)与环境(E)两因素引起的效应中归因于二者交互作用的比例。

4.交互作用超额相对危险度(relativeexcessriskofinteraction,RERI)

RERI=A-(B+C-1)

意义:

表示基因(G)与环境(E)两因素联合作用与其单独作用之和的差值,同时也表示交互作用与基因(G)与环境(E)两因素以外的因素作用之间的关系,如果未知因子作用很大,则所研究的交互作用就变得十分次要而没有意义。

这里,RERI即为基于相加模型的两因素交互作用值。

RERI的绝对值越大,基因(G)与环境(E)之间的交互作用越强。

从上述四项指标可以看出,上述公式均是以基因(G)与环境(E)的相加模型的交互作用为前提的。

叉生分析的优势与局限:

(1)叉生分析表作为病例对照研究中基本的流行病学分析方法,具有信息量丰富、计算直观等优点。

通过叉生分析表,不仅分别获得基因和环境因素各自的主效应,还获得基于不同模型(相加或相乘模型)的交互作用效应。

(2)由于2*4叉生分析表只能分析单个基因(G)与单个环境因子(E),且二者均为二分类变量时的交互作用,它无法分析每个因子是多分类或多个因素间的交互作用。

(3)在研究基因(G)与环境因子(E)之间的交互作用时,若存在混杂因素的影响,则交互作用的测量结果将会被歪曲。

此时,需要控制混杂因素后再进行叉生分析,以反映交互作用的真实强度。

(二)数据模型

从数据分析方法上看,有四类数据挖掘方法可以用于交互作用的研究:

(1)降维法,主要有多因子降维法MDR、logistic回归、多元自适应回归样条等;

(2)基于树的方法,主要是指递归划分算法,包括分类回归树和随机森林randomforest等;(3)模式识别法,包括神经网络、支持向量机;(4)贝叶斯法;贝叶斯上位效应关联图谱等。

1.Logistic回归模型

Logistic回归模型是病例对照研究中分析遗传统计方法。

在Logistic回归模型中,自变量通过logistic函数与二分类结局变量(如疾病状态)联系起来。

非条件Logistic回归用于成组的病例对照研究;条件Logistic回归则用于配对的病例对照研究。

Logistic回归的优点有:

(1)分析某个自变量的效应时,可以同时控制多个协变量的影响;

(2)可以处理自变量对因变量的非线性效应;(3)可以在模型中引入交互作用项;(4)回归系数的可解释性。

尽管Logistic回归可以采用逐步回归的方法从大量的自变量中筛选出一部分有统计学意义的自变量,然后再建立回归模型,但是这种筛选的方法也存在一定缺陷:

如果采用前进法筛选自变量,模型中只能引入有主效应的自变量以及这些自变量的交互作用,从而忽视了只有微弱主效应但存在交互作用的自变量;如果采用后退法,由于需要估计的参数太多,则会导致估计偏差。

采用最小的绝对缩减和变量选择算子(LASSO)来筛选自变量可能比以上的筛选方法更为有效。

该方法是将自变量中那些很小的回归系数缩减为零,从大量的自变量中筛选出一个集。

但LASSO并不一定能实质性地减少预测因子的数量[15]。

因此,为了运用Logistic回归模型来分析自变量与疾病之间的关联,需要考虑采用其他方法来筛选重要的自变量子集。

2.多因子降维法

Ritchie等于2001年提出多因子降维法MDR[16],现已被广泛用于识别乳腺癌、2型糖尿病、风湿性关节炎等复杂疾病的潜在交互作用位点[17,18]。

MDR是一种构造性归纳方法,其分析过程如下:

(1)将所有观测数据随机分成10个等份,其中9份数据(训练集)用于构造模型,剩余的1份数据(测试集)用于评价模型的拟合效果,即十折交叉验证(ten-foldcross-validation)。

(2)在训练集的数据中,从全部的预测因子中选择n个因子(n=l,2…)。

(3)n个因子观察值的组合被呈现在n维空间中。

例如,假设每个SNP有3种可能的基因型,则对于2个SNP的2因子组合将有9种可能的基因型组合。

(4)估计每种基因型组合中病例数与对照数的比值,当比值达到或超过预先确定的某一阈值(如≥1)时,该组合被标记为高危组;当比值小于阈值时,则被标记为低危组。

这样就可以将原来的n维模型的维度降低为一维(1个变量2个水平:

高危组和低危组)。

(5)考虑每一种可能有n因子的组合,重复第2~4步的过程。

在所有的组合中,能够使高危组中病例数与对照数的比值达到最大(即训练集中分类误差最小)的n因子组合被选择为最佳的因子组合。

对这个最佳的n因子组合,进一步用测试集来验证其预测的准确性。

(6)对于第1步中的任一个9/10和1/10的样本,重复第2~5步的过程。

最终的最佳n因子组合是所有n因子组合中平均预测准确性最高(平均预测误差最小)且交叉验证一致性(10次交叉验证中,该n因子组合作为第5步中最佳的因子组合而重复出现的次数)最大的一个。

(7)通过置换检验确定经验P值,进一步评估该模型是否有统计学意义。

与Logistic回归模型相比,MDR的优点主要有:

(1)在单个SNP位点缺乏主效应时,可以同时检测位点间的交互作用;

(2)将研究中的多因子组合以疾病易感性的方式分为高危和低危,把高维结构降低到一维两水平,降低了建模所需的自由度,从而可以分析多个位点间的高阶交互作用。

MDR的缺点主要是:

(1)如果使用穷尽搜索的方式检测最佳n因子组合,由于该搜索方式非常耗时,MDR只能用于分析中小规模预测变量数的交互作用,而不能用于处理大规模数据(如全基因组关联研究的多个位点)。

(2)当数据中存在遗传异质性和拟表型时,MDR的检验效能大大降低。

(3)MDR将基因型组合简单地根据病例与对照的比值分为高风险组和低风险组,当某种组合中病例数和对照数的比值接近于全部观测数据中的比值,或者该组合中病例数和对照数都很少时,MDR很容易发生分类错误,导致假阳性率或假阴性率增高;另外,有些n因子组合的n维列联表的观测数可能为零,此时就很难准确地将该组合归类为高风险组或是低风险组。

因此,有必要对MDR进行改进。

3.分类回归树(CART)

CART方法是由Breiman等在1984年提出的一种决策树分类方法[19],可用于发现大规模自变量与分类或连续性结局变量的关系。

作为传统回归方法的补充,CART已被广泛用于遗传关联研究中检测基因-

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2