ROC曲线的统计学实验报告Word文档格式.docx

资源描述

ROC曲线的统计学实验报告Word文档格式.docx

《ROC曲线的统计学实验报告Word文档格式.docx》由会员分享，可在线阅读，更多相关《ROC曲线的统计学实验报告Word文档格式.docx（9页珍藏版）》请在冰点文库上搜索。

ROC曲线的统计学实验报告Word文档格式.docx

评阅日期:

摘要

在检验某一物质对疾病的诊断效果时,ROC曲线是一个重要的统计学分析方法。

其以真阳率作为纵坐标，假阳率作为横坐标，随诊断临界值的移动而形成一条连续的曲线。

曲线下的面积AUC是判断诊断效果的一个依据,面积越接近于1效果越好.显著性差异可以帮助判断样本是否来自同一总体，也可以因此评价诊断方法的效果。

Abstract

Intheexaminationoftheeffectofasubstanceforthediagnosisofadisease，ROCcurveisasignificantstatisticanalysis.Itsetthetruepositiverateasordinate,thefalsepositiverateasthehorizontalaxis，andformsacontinuouscurvewiththechangeofdiagnosticthreshold.AUCareaunderthecurveisaparameterforjudgingtheeffectofdiagnosis,andthemoreitclosesto1，thebettereffectitimplies.Significantdifferencecanhelpjudgewhetherthesamplesarefromthesamepopulation,andthereforecanalsoevaluatetheeffectivenessofthediagnosticmethod。

第一章概论

1.1甲胎蛋白与肝癌

甲胎蛋白是一种糖蛋白，主要来自胚胎的肝细胞，胎儿出生后约两周甲胎蛋白从血液中消失,因此正常人血清中甲胎蛋白的含量尚不到20微克/升。

但当肝细胞发生癌变时，却又恢复了产生这种蛋白质的功能，而且随着病情恶化它在血清中的含量会急剧增加,甲胎蛋白就成了诊断原发性肝癌的一个特异性临床指标。

过去一直认为是诊断原发性肝癌的特异性肿瘤标志物，具有确立诊断、早期诊断、鉴别诊断的作用。

大量的临床却发现，部分肝硬化病人会长期出现AFP达到上千,但多年都没有肝癌的迹象；

同时发现约20%的晚期肝癌病人，直至病故前，AFP仍不超过10。

也就是说,尽管甲胎蛋白是检验肝癌的有效的指标，但肝癌患者不一定甲胎蛋白检验呈阳性（80％呈阳性），而AFP检验呈阳性的人也不一定是肝癌患者。

这就涉及到对诊断试验评价的问题，我们课程中所学的假设检验、ROC曲线绘制及AUC计算正是针对这类问题的方法之一。

1.2诊断试验的评价指标

显著性差异

显著性差异是检验假设是否合理的一个方法。

例如在本项目中，用甲胎蛋白作为肝癌的诊断指标,若这两组实际数据有显著性差异,基于此,它们所来自的各自的总体不具有显著性差异的概率p是多少？

p达到一个足够小的值时,认为总体具有显著性差异，以此说明甲胎蛋白作为诊断指标是一个有力的依据.一般取这个足够小的值为0.05或0.01，本项目中取0。

05。

ROC曲线

如上图所示，在评价诊断试验时，患者中被诊断试验正确判断为阳性的比例亦叫真阳性率（truepositiverate，TPR）,也称灵敏度；

非患者中被诊断试验正确判断为阴性的比例亦叫真阴性率（truenegativerate，TNR），也称特异性；

患者被诊断试验错误地判断为阴性的比例称为假阴性;

非患者被错误地诊断为阳性的比例称为假阳率。

而ROC曲线是以灵敏度为纵轴，假阳率为横轴，通过不同的诊断临界值的移动绘制而成的曲线。

多条曲线进行比较时，曲线下的面积越大,说明诊断越准确。

将绘成的曲线与斜45度的直线对比，若差不多重合，说明自变量对因变量的判定价值很差，若越远离斜45度的直线,说明自变量对因变量的判定价值越好。

分析单个曲线时，越靠近左上角的点所对应的诊断临界值越好，例如本项目中的。

1。

3项目数据:

测得正常人及肝病患者的甲胎蛋白（AFP）水平如下,分作两组（肝癌、非肝癌）。

肝癌组（17人,ug/L）:

5.2,3。

2，20.7,40.2,50。

2,100。

7,1030.2,800.7，400.5，90。

2，19.3，6.2,32。

1，8。

4,25.3，83.8，37.4

非肝癌组（20人，ug/L）:

0.8,1。

5,3.2，10.7,20.8，21。

4，5。

2，2。

3，7.2，4.3，9。

2，15.1,3。

1,4。

3，5.6,6.2,22.3,25。

2，18.2

1.检验肝癌组与非肝癌组的甲胎蛋白水平是否有显著性差异.

2.绘制用AFP诊断肝癌的ROC曲线，并计算曲线下面积（AUC），确定最优的诊断临界值.

第二章判断显著性差异

2。

1正态检验lillietest

显著性差异的检验有多种方法，其中常见的t检验是针对正态分布的检验，而我们的两组数据并不能确定是服从正态分布，因此需要先进行正态分布检验.

利用Lillieforstest函数:

[H，P,LSTAT，CV］=lillietest（A）；

［h,p,lstat,cv]=lillietest（B）；

结果显示H=1，h=1，说明这两组数据不服从正态分布,因此不能用t检验而选用Kruskal–Wallis秩和检验

2秩和检验

调用Kruskal–Wallis函数

p=kruskalwallis（C，group，’off’）；

结果显示p=3.8332e—04，p〈0。

05，两组数据所来自的总体有显著性差异。

第三章ROC曲线与最优临界值

在本项目的数据中，AFP的分布范围是0.8-1030.2，那么假设临界值的范围取为0-1100；

又因数据中不个体的AFP差值最小为0.1，故取递增间隔为0。

用trapz函数绘制ROC曲线。

结果如下图所示.

在本项目中，最优诊断临界值可以用真阳率与假阳率之差来评定，真阳率愈高，假阳率愈低,则诊断效果越好。

程序如下：

zc=ya-xb；

max=1;

fori=1：

Len

if（abs（zc（i））〉abs（zc（max）））

max=i；

w=i；

end

holdon；

plot（xb（w）,ya（w），'

b*'

）；

得到的最优诊断临界值是25。

2ug/L。

第四章使用SPSS

输入数据:

3.1正态检验

3.2显著性差异检验

用Mann—WhitneyU检验：

两组之间有显著性差异。

3.3绘制ROC曲线并计算AUC：

结果：

曲线下的面积

检验结果变量:

AFP

面积

标准误a

渐进Sig。

渐近95%置信区间

下限

上限

。

843

068

000

710

976

检验结果变量：

AFP在正的和负的实际状态组之间至少有一个结。

统计量可能会出现偏差。

a。

在非参数假设下

b。

零假设:

实面积=0.5

第四章结论与总结

由第一步检验显著性差异可以知道,这两组数据存在显著性差异，说明甲胎蛋白用于诊断肝癌是有一定可靠性的.由ROC曲线计算所得的面积AUC>

0.5,并且接近于1，可知诊断效果较好。

计算真阳率和假阳率之差得到本项目中最优诊断临界值是25。

在本项目实践中，学习了利用MATLAB编程和SPSS软件进行统计分析，收获不少。

统计学分析的方法和思想对于科学研究有着重要的意义,值得我们继续深入学习。

参考文献

［1］宇传华《ROC分析方法及其在医学研究中的应用》

[2]ice110956博客频道《ROC曲线与AUC》

[3]维基百科《显著性差异》

［4]黑夜彩虹新浪博客《SPSS学习笔记之-—两独立样本的非参数检验

（Mann—WhitneyU）》

[5]菜鸟新浪博客《利用SPSS做正态分布检验》

展开阅读全文