乳腺癌数据的处理Word文档格式.doc

资源描述

乳腺癌数据的处理Word文档格式.doc

《乳腺癌数据的处理Word文档格式.doc》由会员分享，可在线阅读，更多相关《乳腺癌数据的处理Word文档格式.doc（21页珍藏版）》请在冰点文库上搜索。

乳腺癌数据的处理Word文档格式.doc

假设3：

假设各位被测患者无其他疾病，不会干扰被测数值。

假设4：

假设医生不会仅仅依靠化验结果对患病情况作出最终判断，化验仅仅作为医生诊断的一种辅助手段，所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。

假设5：

题目中给出的原始数据有两组无效，将其舍去认为对解题无影响。

2.2符号说明

乳腺肿瘤肿块的厚度指标；

细胞大小的均匀性指标；

细胞形状的均匀性指标；

边缘的粘连指标；

单层上皮细胞的大小指标；

裸核指标；

温和的染色质指标；

正常的核仁指标；

有丝分裂指标；

诊断结果；

诊断结果估计值；

回归常数；

回归系数；

回归常数估计值；

回归系数估计值；

随机误差项；

显著性水平；

总变差平方和；

残差平方和；

回归平方和；

被分析数据的组数；

第个指标作显著性水平检验；

偏回归平方和；

3.问题分析

此题研究的是医学上常用几个指标来综合判别乳腺肿瘤是良性还是恶性的数学模型。

针对问题一，题目要求我们提出判别方法，依据9项指标的数据，判别肿瘤病例是良性还是恶性。

我们根据所提供的已确诊的病例中分析得知，肿瘤病例是良性还是恶性与各项指标呈相应的线性关系，我们初步提出否能通过病例样本中肿瘤病例是良性或恶性与各项指标来建立回归模型，再验证模型正确性后由模型来判别病例。

因此，我们先选取其中一部分数据进行研究，待建立模型后，将剩余的数据代入模型检验。

针对问题二，题目要求我们利用问题一中提出的方法，对表二中的20个待判别的病例进行判别。

我们分别将各元素的含量输入到在问题一建立的模型中，求出对应的值，然后和0、1进行比较，判别出哪些患者的肿瘤是良性，哪些患者的肿瘤是恶性。

针对问题三，题目要求我们根据已知数据确定哪些指标是区分乳腺肿瘤是“良性”还是“恶性”的主要指标，并采用主要指标建立区分“良性”和“恶性”乳腺肿瘤的模型，以便用于乳腺肿瘤的辅助诊断时可以减少化验的指标。

我们通过对模型一进行逐步回归分析，剔除模型中那些对因变量作用不显著的自变量，得到最优化模型，那些保留下来的自变量，即是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。

4.数据分析

在初步的数据分析下，肿瘤的良恶性与各指标间的关系还无法得到确定，这无疑给以后数学模型的建立和求解带来了不便。

对于题目给出的化验结果，在一般情况下，都希望能对它们进行数据的规范化处理。

以下9张图是肿瘤良性患者和肿瘤恶性患者各个指标的坐标图，以及存有相关数据的表格，通过这些图我们可以发现，各个指标对应数与乳腺肿瘤是良性还是恶性诊断具有一定的线性对应关系，我们设想，可以用构建线性回归模型的方法来解决此问题。

因此我们选择多元统计分析中利用excel中的回归工具建立回归模型，计算出该线性方程的常量和系数，从而完成模型的初步建立。

同时，我们也看到，在图中的一些点的规律性并不明显，因此我们猜测，可以在构建的方程中忽略一些因素的影响，这就为我们提出简化模型提供了思路。

回归参数表中回归系数的统计量的值，表征了该系数的显著性水平，也表征了该项因素对于因变量判定的影响程度，以此为衡量的标准来筛选9项相关指标，保留其中的主因项，去除非主因素的干扰，重新构建模型，以达到简化模型和提高精度的目的。

5.问题一的解答

针对问题一我们建立了模型一。

5.1模型一的建立

考虑多元一次线性回归模型，我们从总体中选取1-60号病例作为研究样本，以各项指标为自变量；

肿瘤的良恶性为因变量。

设多元线性回归模型的一般形式为：

（1）

其中：

因变量，为9个对有显著影响的自变量，是10个待估参数，是随机误差项。

5.2模型一的求解

对于组实际观察数据，由

（1）式得：

（2）

根据

（2）式多元线性回归模型可表示为：

（3）

令

模型的相应矩阵方程表示为：

（4）

由（4）式解得：

（5）

且

（6）

当时，表示肿瘤为良性；

当时，表示肿瘤为恶性。

我们将样本数据代入（5）式，利用MATLAB（求解源程序见附录）软件，用matlab对数据进行初步运算，从残差及其置信区间图找出应6组离群点予以剔除，再用Excel中‘回归’命令对剩下的54组数据组进行分析，得到回归统计表，从而得出较为精确的结论，建立起模型。

残差及其置信区间图

回归统计

MultipleR

0.952533

RSquare

0.90732

AdjustedRSquare

0.888363

标准误差

0.168514

观测值

方差分析

SignificanceF

回归分析

12.23202

1.359113

47.86135

8.17E-20

残差

1.249463

0.028397

总计

13.48148

Coefficients

tStat

P-value

Lower95%

Upper95%

下限95.0%

上限95.0%

Intercept

-0.32858

0.057305

-5.73377

8.3E-07

-0.44407

-0.21308

XVariable1

0.060725

0.011789

5.151136

5.84E-06

0.036966

0.084483

XVariable2

-0.08212

0.027772

-2.95689

0.004982

-0.13809

-0.02615

XVariable3

0.10584

0.028061

3.771817

0.00048

0.049287

0.162392

XVariable4

0.015509

0.012992

1.193681

0.238999

-0.01068

0.041693

XVariable5

0.010307

0.017921

0.575154

0.568117

-0.02581

0.046424

XVariable6

0.042092

0.009007

4.673476

2.81E-05

0.02394

0.060244

XVariable7

0.001685

0.019818

0.085004

0.932644

-0.03826

0.041626

XVariable8

0.031964

0.011292

2.830663

0.006976

0.009206

0.054721

XVariable9

0.034681

0.020673

1.677629

0.10051

-0.00698

0.076345

求得各参数的线性回归系数分别为：

则多元线性回归方程为：

（7）

5.3模型一的检验

5.3.1对回归方程进行显著性的检验

R检验法

（8）

则

（9）

R接近于1，说明线性回归拟合效果显著；

检验法

提出假设：

线性关系不显著

线性关系显著

计算检验统计量：

，（11）

代入数据得：

查分布表表知

因为非常接近1，同时远大于，故拒绝，认为在显著性水平下，与之间存在显著的线性相关关系。

5.3.2模型的准确性检验

将表一验证样本的值代入（7）式判别出18个样本的病例情况：

病历号

结果

恶性

良性

根据题目中所给的已知信息，可以看出，我们运用所求的判别函数所检验的结果与实际情况几乎不存在的误差，也就是说运用一次线性模型判定的结果可信度很高。

6.问题二的解答

运用问题一中所求得的的最优判别函数，我们对附录一中表二中20组病例各项指标对应数据代入模型一中进行判别（用MATLAB求解源程序见附录二），我们将结果整理可制成以下表：

表：

对20组病例各项指标对应数据的判定结果

病例号

从上表结果中我们可以得知，运用模型一中的判别方法可以判定附录一中表二中20组病例中第1，4，5，7，10，11，15，19组共8个病例是恶性肿瘤，余下12个病例是良性肿瘤。

7.问题三的解答

我们应用剔除法对模型中的不显著元素逐个进行剔除，最终保留下来的元素就是区分乳腺肿瘤是“良性”还是“恶性”的主要指标。

我们知道回归平方和描述了全体自变量对的总影响。

为了研究某个的作用，先把从个自变量中扣除下来，只考虑个自变量的影响，作这个自变量的回归平方和，记作，并记

其中，为在中的偏回归平方和，用它来衡量在对的线性回归中的作用大小。

由于的自由度为1，且，选统计量

算出的值，对给出的显著水平，查出。

代入数据得，其中最小为对置信水平，查表得：

。

所以考虑去掉。

同理，将保留下来的项，再代入数据，求得，其中最小为对置信水平，查表得：

所以我们考虑去掉。

由于保留下来的，对有显著的线性回归作用，因此，它们所对应的指标即为区分乳腺肿瘤是“良性”还是“恶性”的主要指标，它们分别是乳腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核、正常的核仁、有丝分裂。

我们将对应的样本数据代入上式，利用Excel软件，求得各参数项的线性回归系数分别为：

最终优化后的模型为：

8.模型的评价、改进及推广

8.1模型评价

优点：

我们选取部分样本进行研究，通过回归分析建立数学判别模型，并不断进行优化，最终得到拟合优度较高的模型，在判别病例的化验结果来确定就诊人员乳腺肿瘤的良恶性，其准确率达到100%，即该模型的误判率为0。

可见，该模型的可操作性很强，效率很高。

缺点：

由于所给数据太少以致在统计数据时不是很准确，又由于计算机模拟带有一定的随机性，以致得到模型的指标不是很让人满意。

8.2模型改进

对于第一问和第三问可以运用MATLAB软件中的回归分析命令和逐步回归命令进行解答更为方便简单。

8.3模型推广

该模型还可以推广到通过对若干指标的分析判别来与之相关的个体这类实际问题中去，因此我们可以把这个模型应用病虫害的预报，疾病的预测预报，以及红细胞检测，辅助诊断等领域。

参考文献

[1]姜启源，谢金星，叶俊，数学模型（第三版）北京：

高等教育出版社，2003.8

[2]盛骤，谢世千，潘承毅，概率论与数理统计（第三版）北京：

高等教育出版社，2001.12

[3]赵静但琦，数学建模与实验，北京：

高等教育出版社，2003.6

[4]白厚义，回归设计与多元统计分析，广西：

广西科学技术出版社，2003.1

[5]宋来忠，王志明,数学建模与实验,北京：

科学出版社,2005

[6]赵颖，应用数理统计，北京：

北京理工大学，2008.5

附录

附录一

表一：

80组已确诊乳腺肿瘤患者的数据

肿瘤肿块的厚度

细胞大小的均匀性

细胞形状的均匀性

边缘的粘连

单层上皮细胞大小

裸核

温和的染色质

正常的核仁

有丝分裂

良/恶性

表二：

20组乳腺肿瘤患者九个指标的数据

展开阅读全文