从本科生角度浅谈生物医学数据的统计建模心得Word格式.docx

资源描述

从本科生角度浅谈生物医学数据的统计建模心得Word格式.docx

《从本科生角度浅谈生物医学数据的统计建模心得Word格式.docx》由会员分享，可在线阅读，更多相关《从本科生角度浅谈生物医学数据的统计建模心得Word格式.docx（4页珍藏版）》请在冰点文库上搜索。

从本科生角度浅谈生物医学数据的统计建模心得Word格式.docx

心得体会

中图分类号：

G642.0文献标志码：

A文章编号：

1674-9324（2017）52-0220-02

随着生物信息技术的飞速发展，生物医学研究领域的数据呈几何级增长。

近年来，生物医学大数据受到学者们的广泛关注。

生物医学大数据具有典型的“4V”特征：

体量巨大

（volume）、种类繁多（variety）、实时更新（velocity）、价值隐藏（value）[1]；

“3H”特点：

高维（highdimension）、高度计算复杂性（highcomplexity）、高度不确定性（high

uncertainty）[2]。

因此，综合利用生物学、医学、数学、流行病学、统计学、计算机学等多个学科的方法和手段，从中挖掘“有价值”的信息，为生物医学研究提供确凿有效的证据，显得尤为重要。

笔者以肺癌全基因组关联研究（genome-wideassociationstudy，GWAS）为例，结合理论学习和案例实践的切身体会，浅谈利用GWAS数据建立肺癌风险预测模型的心得体会。

一、严谨的数据质量控制体系不容忽视

由于存在检测、观察、填写或录入错误，未经数据质控的原始数据极可能含有一些异常，甚至错误的观测值。

在研究设计之初，便要尽可能考虑规避产生错误数据。

另外，统计建模之前，仍然必须对原始数据再次进行质量控制。

在GWAS中，要同时对行（样本）、列（位

点）进行质量评价。

例如，删除次等位基因频率低于5%、缺失率超过5%或哈代不平衡的位点；

删除分型失败率超过5%、问卷性别与遗传性别不一致、存在血缘关系、属于离群值的样本[3]。

另外，同时需要对流行病学问卷及临床数据进行核查。

只有对数据进行清理后，才能用于后续关联分析、统计建模。

二、合理的建模方法和策略值得精雕细琢

对于GWAS高维数据，合理的方法和策略不仅要考虑统计学性能（一类错误、检验效

能、预测精度），还需要考虑分析效率（计算速度）。

因此，研究者应该要深入思考，为研究

项目量身定制一套“合理”的方法和策略。

然而，现有的统计学模型和方法往往都有相应的应用条件。

实际数据由于其变量结构的复杂性，不一定完全满足所有的应用条件。

并且，简单的算法速度快，但统计性能相对低；

复杂算法需要牺牲计算速度来提升统计性能。

因此，研究者可能需要制定多个备选方案。

结合建模步骤，笔者将从以下几个方面，浅谈个人心得体会。

1.初始模型：

一般拟合logistic回归模型评价肺癌风险。

模型中往往需要纳入一些协变量，例如：

年龄、性别、吸烟、人群分层等。

一般参考以下纳入原则：

（a）在模型中有统计

学意义（P≤0.05）；

（b）即便在模型中无统计学意义，但绝大多数同类研究显示其是公认的

影响因素。

某些协变量可能是位点的混杂因素，例如人群分层。

如果GWAS中忽视调整混杂因素的影响，则有可能导致误报噪音位点的一类错误膨胀，或识别致病位点的检验效能降低[4]。

此外，研究者还需要考察协变量进入模型的形式。

一般而言，无序分类变量以哑变量形式进入模型。

当某些类别样本量特别小，需要进行类别合并。

有序分类变量、连续性变量则需要考虑是否以非线性的形式进入模型。

一种最简单的方式是，将连续性变量转化为有序分类变量，并以哑变量形式进入模型。

如果哑变量各组的系数呈现线性递增的趋势，则提示原始变量与结局变量间存在线性关系。

否则，可采用哑变量、样条函数等方法处理非线性关系。

2.因素筛选：

研究者需要从GWAS数据50万位点中筛选出肺癌相关位点，加入初始模

型，以提高模型的预测精度。

常规做法是，在初始模型中逐个纳入位点，对位点的主效应进行假设检验。

因检验次数达50万次，研究者必须要考虑多重比较所致的一类错误膨胀。

常见一类错误控制方法有Bonferroni法和FDR法。

前者较为严格，后者较为宽松。

GWAS识别位点一般采用“宁缺毋滥”的原则，倾向于采用严格的校正方法。

除此之外，研究者还要在多个独立的人群中验证初筛的位点。

如果位点在多个人群中都显示与结局存在统计学关联，则认为该位点是潜在的影响因素。

除基因位点主效应外，研究者还需要关注基因-基因、基因-环境交互作用。

复杂疾病往由环境、基因相互影响，共同导致。

因此，有必要在模型中对交互作用进行评估。

例如，基因-环境交互作用可以显著提高肺癌风险预测模型的预测精度[5]。

有效的降维策略能够提高因素筛选的效率。

笔者曾采用“信息熵初筛→对数线性模型再筛

→多因素logistic回归模型确认”的降维策略进行全基因组基因-基因交互作用分析[6]。

信息熵方法计算速度快，且其统计量总是不小于对数线性模型，不会出现漏检的情况。

前两步可以检验次数将1011次缩减至105次。

检验次数降低6个数量级。

最后一步，利用调整协变量的logistic回归模型对关联结果加以确认，防止出现假阳性。

当然，研究者也可以根据项目“量体裁衣”，选择其他降维方法，例如：

随机森林（randomforest）、多因子降维（multifactordimensionalityreduction，MDR）等。

3.预测模型：

经过遗传因素筛选步骤后，研究者可通逐步回归、LASSO等方法，建立含有与协变量、遗传位点的主效应项、交互作用项的风险预测模型。

根据受试者工作特征曲线

（receiveroperatingcharacteristiccurve，ROC）确定一个风险阈值，使得风险预测的灵敏度、特异度同时达到最优。

若样本的预测概率≥阈值，则预测该样本为肺癌。

4.模型评价：

从统计学的角度，可采用ROC曲线下面积（areaunderROC，AUC）来评价模型的优劣[7]。

此外，还可以采用交叉验证的方式评价模型，即：

训练集拟合的预测模型对测试集的样本进行风险估计，并计算AUC。

然而，AUC并非衡量模型的唯一标准。

如果预测模型形式简单，应用便捷，即便AUC稍有逊色，也是优秀的模型之一。

所以，笔者认为需要综合考虑，权衡利弊。

三、熟练的软件操作和编程技能令人事半功倍

扎实的理论基础固然重要，熟练的软件操作亦不可或缺。

笔者建议研究者不要拘泥于某一软件，本着“方便原则”利用多个软件进行数据处理、统计建模。

根据笔者的经验，一般不太可能一次性完成建模工作，往往需要不断调整分析策略和分析方法。

因此，笔者建议研究者适当撰写一些项目相关的通用程序。

如果需要重新建模，只需要修改程序参数，微调代码就可以建立新的预测模型。

因此，这就要求研究者“功在平时”以培养编程能力。

基于肺癌GWAS风险预测模型的建模体会，笔者建议研究者需要重视数据质量控制体系、推敲建模方法和策略、培养熟练软件操作技能。

参考文献：

[1]王波，吕筠，李立明.生物医学大数据：

现状与展望[J].中华流行病学杂志，2014，35

（6）：

617-620.

[2]宁康，陈挺.生物医学大数据的现状与展望[J].科学通报，2015，（z1）：

534-546.

[3]陈峰，柏建岭，赵杨，荀鹏程.全基因组关联研究中的统计分析方法[J].中华流行病学杂志，2011，32（4）：

400-404.

[4]ZhaoY ，ChenF，ZhaiR，LinX，WangZ，SuL，ChristianiDC.Correctionforpopulationstratificationinrandomforestanalysis[J].InternationalJournalofEpidemiolog，y2012，41（6）：

1798-1806.

[5]ZhangR，ChuM，ZhaoY，WuC，GuoH，ShiY，DaiJ，WeiY，JinG，MaH，DongJ，YiH，BaiJ，GongJ，SunC，ZhuM，WuT，HuZ，LinD，ShenH，ChenF.Agenome-widegene-environmentinteractionanalysisfortobaccosmokeandlungcancer

susceptibility[J].Carcinogenesis，2014，35（7）：

1528-1535.

[6]ChuM，ZhangR，ZhaoY，WuC，GuoH，ZhouB，LuJ，ShiY，DaiJ，JinG，MaH，DongJ，WeiY，WangC，GongJ，SunC，ZhuM，QiuY，WuT，HuZ，LinD，ShenH，ChenF.Agenome-widegene-geneinteractionanalysisidentifiesanepistaticgenepairforlung

cancersusceptibilityinHanChinese[J].Carcinogenesi，s2014，35（3）：

572-577.

[7]陈峰.医用多元统计分析方法[M].北京：

中国统计出版社，2000.

展开阅读全文