疾病研究问题模拟3.docx

资源描述

疾病研究问题模拟3.docx

《疾病研究问题模拟3.docx》由会员分享，可在线阅读，更多相关《疾病研究问题模拟3.docx（28页珍藏版）》请在冰点文库上搜索。

疾病研究问题模拟3.docx

疾病研究问题模拟3

疾病研究问题

槐妮妮数学系

董小江物理系

张小平物理系

摘要

近几十年，人们生出一个健康孩子越来越困难，到底有哪些因素影响胎儿健康？

本题给出了两组数据，病例组和对照组，为了判断胎儿某种疾病的诱发因素，我们应用统计学知识建立相应模型。

对于两组数据可用判别分析法得到判别函数，我们用判别函数与回归函数的等同性，得出回归函数，再根据回归平方和，描述了全体自变量对总体的影响，一步一步用剔除法，最终可得出影响胎儿健康的诱发因素，利用MATLAB软件编程可以大大简化我们对数据的处理。

最后我们得到该疾病的诱发因素为：

鼻炎家族史、孕期用药、先兆早产、流产史、剖宫产、孕期营养、出生体重、妊娠反应等八种诱发因素。

关键字：

MATLAB程、判别分析法、剔除法、F检验

、

一、问题重述

世界卫生组织最近发布的资料显示，与50年前相比，人们的生殖能力明显降低了，生一个活泼健康的孩子，越来越像一个复杂的系统工程，需要精心运作每一个细节，不敢稍有松懈麻痹，到底是什么原因威胁胎儿的健康也是医学上一个非常复杂的问题。

本题就胎儿的某种疾病影响因素做了详细的调查与记录（见附件1），根据附件1中的数据，我们要利用统计学知识判断到底该疾病的诱发因素有哪些。

二、问题分析

本题对胎儿的某种疾病影响因素做了详细的调查与记录，我们要利用统计学知识判断到底该疾病的诱发因素有哪些。

题中给出了病例组和对照组两组数据，我们可以利用统计学知识——判别分析法先找出两组数据的判别函数，判别函数的系数也就是我们所求回归函数的系数，得出回归方程，我们可用剔除法。

回归平方和描述了全体变量对总体的影响，用回归平方和算出去掉第i个数的检验统计量F的值，对照F检验，可一次剔除一个影响因素，判别它的影响度是否显著，如果显著则保留它，如果不显著则剔除掉。

依次剔除每一个因素，然后计算其它因素的回归平方和，得出这个因素的影响度，再判断它的显著度。

依次进行便可得出对于该疾病的诱发因素。

三、模型假设与符号说明

1、对于这二百个人的选取具有随机性，代表性。

2、影响该疾病的诱发因素已在给出的因素之中，不会再有其他未发现因素。

3、所给出的数据具有准确性。

不存在其它人为因素。

符号说明

（i=1、2、3…11、12）：

第

个影响因素的值；

（i=1、2、3…11、12）：

第

个影响因素的系数；

：

回归方程的响应变量；

：

判别函数的系数

SSR：

回归平方和

SSR（i）：

去掉第i个数后的回归平方和

Ui：

偏回归平方和

Fi：

去掉第i个数的检验统计量F的值

P：

疾病影响因素的个数

A：

由病例组数据所构成的矩阵

B：

由对照组数据所构成的矩阵

四、模型建立与求解

步骤一、建立多元线性回归模型

首先利用题中已知条件建立自变量为该胎儿疾病致病因素，因变量为胎儿患病可能性的回归方程为：

因为回归方程的系数与最优判别函数的系数是一致的（或相差一个常数倍数）从而最优判别函数与回归方程（出常系数外）在形式上是一样的。

利用FISHER判别法求出判别是否患病的判别函数，附表一、二给出了病例组和对照组的各个因素情况，可将其分为A组和B组，将其数据对应成两个矩阵。

（1）、求每列的平均值

（2）做两个矩阵的离差矩阵

（3）把A、B矩阵化成正矩阵

（4）求系数矩阵

我们用MATLAB对判别分析法求解判别式所编的程序1（程序1见附录），可直接求解出我们所需的判别式的系数矩阵C,两组数据的判别值Ya,Yb以及临界值Y0，还有对函数的检验值F,通过与F检验表中的值比较，可以知道我们的模型是否有效，数据是否可用。

解出的C为（0.0051，0.0009，0.0002，0.0052，0.0116，0.0025，0.0033，0.0051，0.0047，-0.0004，-0.0035，0.0016）

判别式为：

即回归方程为

步骤二、利用剔除法依次对每一个因素进行剔除

我们知道，回归平方和SSR描述了全体自变量对总体的影响。

为了研究某个xi（i=1、2、…11、12）的作用，先把xi从P个因素中剔除出去，只考虑P-1个因素，做这P-1个因素的回归平方和SSR（i）。

并记Ui=SSR-SSR（i），并称其为在P-1个因素中x（i）的偏回归平方和。

去掉第i个数的检验统计量F的值为：

算出Fi的值,显著性水平的值取α=0.05，查出

若

，则保留xi,说明因素xi的影响是显著的。

若

，则剔除xi1,说明因素xi的影响是不显著的。

这样从回归方程中去掉了xi,变成了P-1元的线性回归方程。

当剔除一个变量后，再考虑剩余变量对回归函数的影响，就这样，依次剔除其他不显著的因素。

对于数据比较庞大，我们借助MATLAB软件编程（附录程序二），可以直接算出每一次的回归平方和，偏回归平方和及F值。

第一个因素的剔除

当去掉一个因素时，每一个因素所对应的回归平方和与F值如下表：

因素

SSR

0.0132

0.0151

0.0129

0.0094

0.0146

27.3752

0.4669

-0.4839

32.6729

112.0029

5.8686

因素

X10

X11

X12

SSR

0.0149

0.0130

0.0134

0.0151

0.0145

0.0146

2.2514

30.7350

24.4593

-0.4228

7.1506

6.0148

查表可得F0.05（1,187）=3.84,对照上表中数据，在每一个因素所对应的F值中找出小于3.84的F值，并找出其中最小的，即X3,将其剔除出去。

第二个因素的剔除

每一个因素所对应的回归平方和与F值如下表：

因素

SSR

0.0132

0.0151

0.0128

0.0094

0.0146

27.5908

0.5453

34.2125

112.6752

6.3288

因素

X10

X11

X12

SSR

0.0149

0.0130

0.0134

0.0151

0.0145

0.0146

2.2657

30.8384

24.4930

0.3576

7.2063

6.0573

对照上表中数据，在每一个因素所对应的F值中找出小于3.84的F值，并找出其中最小的，即X10,将其剔除出去。

第三个因素的剔除

每一个因素所对应的回归平方和与F值如下表：

因素

SSR

0.0131

0.0150

0.0127

0.0090

0.0146

28.4798

0.6365

34.5393

127.7534

6.8551

因素

X11

X12

SSR

0.0149

0.0130

0.0133

0.0145

0.0146

2.7064

30.9661

24.9629

7.6597

6.3718

对照上表中数据，在每一个因素所对应的F值中找出小于3.84的F值，并找出其中最小的，即X2,将其剔除出去。

第四个因素的剔除

每一个因素所对应的回归平方和与F值如下表：

因素

SSR

0.0137

0.0127

0.0089

0.0145

0.0148

29.0085

34.8743

131.8708

7.8387

3.5022

因素

X11

X12

SSR

0.0129

0.0133

0.0144

0.0145

32.7147

25.4038

7.0737

7.2381

对照上表中数据，在每一个因素所对应的F值中找出小于3.84的F值，并找出其中最小的，即X7,将其剔除出去。

第四个因素的剔除

每一个因素所对应的回归平方和与F值如下表：

因素

SSR

0.0129

0.0125

0.0084

0.0143

27.8576

34.8707

141.2633

6.6019

因素

X11

X12

SSR

0.0127

0.0137

0.0141

0.0143

31.3378

24.8933

9.2574

6.6475

对照上表中数据，每一个因素所对应的F值都大于3.84，故其对回归方程的影响都是显著的。

故我们用上边的模型可剔除掉的因素有孕期活动量、主（被）动吸烟、孕早期病毒感染、早产。

即鼻炎家族史、孕期用药、先兆早产、流产史、早产、剖宫产、孕期活动量、出生体重、妊娠反应为该疾病的诱发因素。

五、模型检验

可将我们得出的诱发因素与在两组数据中的所求的每个因素所占总体的百分比所对比出来的诱发因素相比较，基本符实。

各因素所占总体百分比如下表：

影响因素

鼻炎家族史

主（被）动吸烟

孕早期病毒感染

孕期用药

先兆早产

流产史

病例组

45%

54%

40%

59%

36%

38%

对照组

24%

54%

32%

37%

30%

影响因素

早产

剖宫产

孕期营养

孕期活动量

出生体重（kg）

妊娠反应

病例组

63%

59%

69%

对照组

335

30%

87%

六、模型评价与推广

1、优点

我们对于讨论某种疾病的主次因素所建立的模型容易理解算法简单，而且剔除法使模型简化，保留了关键因素，减少了判断疾病影响因素程序。

在MATLAB中所编程序使处理数据的过程大大简化，降低了我们工作的难度.

2、缺点

由于后两个因素与前边几个因素的数据不具有统一性，因此，对于后两个因素的判别就有了一定的误差。

3、模型推广

对于我们的这个模型对于其他病历也可以适用，只需要改变它的影响因素个数及其每个因素所对应的量值就可以了。

七、模型改进

由检验可知，对于后两个因素的判别有一定的误差，分析可知由于后两个因素与前几个因素数据类型不太统一，如果可将后两组的数据做相应的变动转化成前几组数据类型，比如，可将“出生体重”的三个等级划分开，转化成三个因素，每一的因素所对应的事件发生则为“有=1”，不发生则为“无=0”。

“妊娠反应”同“出生体重”一样做相应转化，这样可使我们的结果更准确。

八、参考文献

1、阮晓青周义仓《数学建模引论》北京高等教育出版社2010

2、盛骤谢式千潘承毅《概率论与数理统计》北京高等教育出版社2010

3、2012

九、附录

表一病例组

患儿代码

鼻炎家族史

主（被）动吸烟

孕早期病毒感染

孕期用药

先兆早产

流产史

早产

剖宫产

孕期营养

孕期活动量

出生体重（kg）

妊娠反应

无=0有=1

一般0好1

小0一般1

＜2.5=12.5~4=2≥4=3

轻1中2重3

100

表二对照组

儿童代码

鼻炎家族史

主（被）动吸烟

孕早期病毒感染

孕期用药

先兆早产

流产史

早产

剖宫产

孕期营养

孕期活动量

出生体重（kg）

妊娠反应

无=0有=1

一般0好1

小0一般1

＜2.5=12.5~4=2≥4=3

轻1中2重3

展开阅读全文