第三次个人赛论文肾病检验.docx

上传人:b****7 文档编号:16166333 上传时间:2023-07-11 格式:DOCX 页数:20 大小:123.60KB
下载 相关 举报
第三次个人赛论文肾病检验.docx_第1页
第1页 / 共20页
第三次个人赛论文肾病检验.docx_第2页
第2页 / 共20页
第三次个人赛论文肾病检验.docx_第3页
第3页 / 共20页
第三次个人赛论文肾病检验.docx_第4页
第4页 / 共20页
第三次个人赛论文肾病检验.docx_第5页
第5页 / 共20页
第三次个人赛论文肾病检验.docx_第6页
第6页 / 共20页
第三次个人赛论文肾病检验.docx_第7页
第7页 / 共20页
第三次个人赛论文肾病检验.docx_第8页
第8页 / 共20页
第三次个人赛论文肾病检验.docx_第9页
第9页 / 共20页
第三次个人赛论文肾病检验.docx_第10页
第10页 / 共20页
第三次个人赛论文肾病检验.docx_第11页
第11页 / 共20页
第三次个人赛论文肾病检验.docx_第12页
第12页 / 共20页
第三次个人赛论文肾病检验.docx_第13页
第13页 / 共20页
第三次个人赛论文肾病检验.docx_第14页
第14页 / 共20页
第三次个人赛论文肾病检验.docx_第15页
第15页 / 共20页
第三次个人赛论文肾病检验.docx_第16页
第16页 / 共20页
第三次个人赛论文肾病检验.docx_第17页
第17页 / 共20页
第三次个人赛论文肾病检验.docx_第18页
第18页 / 共20页
第三次个人赛论文肾病检验.docx_第19页
第19页 / 共20页
第三次个人赛论文肾病检验.docx_第20页
第20页 / 共20页
亲,该文档总共20页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

第三次个人赛论文肾病检验.docx

《第三次个人赛论文肾病检验.docx》由会员分享,可在线阅读,更多相关《第三次个人赛论文肾病检验.docx(20页珍藏版)》请在冰点文库上搜索。

第三次个人赛论文肾病检验.docx

第三次个人赛论文肾病检验

化验检查诊断问题

摘要125

本文研究的是如何通过人体内各种元素含量来判断是否患有肾炎。

对于问题一,通过查阅相关文献,我们找到了常用的判别分析方法有:

Bayes判别、Fisher判别、距离判别。

而Bayes判别的数据必须满足多元正态分布,而后两者不需满足此条件。

我们先利用spss软件对表B.1中原始数据进行了多元正态检验,得出8种元素的显著性水平均小于0.05,拒绝接受正态分布的原假设,因此不能使用Bayes判别。

接着,我们以B.1中的数据为训练样本作为检验集,用Fisher判别和马氏距离判别对样本进行判断,得出:

Fisher判判别的回待误判率和交叉误判率分别是6.3%、8.3%;马氏距离判别的回待误判率和交叉误判率分别是11.7%、11.7%。

所以Fisher判别比马氏距离判别更适合于此问题的研究。

对于问题二,结合问一,我们知道Fisher判别比马氏距离判别的准确性更高,所以更适合于此问题的研究,所以我们利用Fisher判别求出了30个就诊人员的重心(即F值)进一步计算它们分别距两类重心的距离,对30位就诊人员进行判别,得出30人中有15人未患病和15人患病。

对于问题三,我们利用主成分分析对化验的7个指标进行了相关性的分析,得出:

Na和K两者的相关性很强,Ca、Cu和Mg之间的两两相关也非常密切,且相关系数均在0.71以上。

由于这些指标间的相关性很强,所以我们可以采用其中的一个指标Ca作为这三个指标的综合指标,K作为Na和K的综合指标。

这样,我们得到优化后的指标为Zn、Fe、Ca、K。

对于问题四,我们结合问三以优化后的4个指标Zn、Fe、Ca、K作为检验指标,利用Fisher判别重新对B.2表中的就诊人员进行判别,并将得出的数据于原始指标下的判别数据相比,得出:

出现5个误判,其中4人没病被误判成有病,1人有病被误判成没病,总的误判率为

=16.7%.优化后的指标虽然大大缩减了化验工作但在一定程度上增加了误判的概率。

最后我们对问题三中的优化指标模型进行了检验,得出优化后的模型在保证一定的正确率的前提下能大大的提高效率。

接着,我们对模型进行了优缺点进行了评价和进一步的改进以及模型的推广。

 

关键词:

Fisher判别;马氏判据;多元正太检验;主成分分析;指标优化;

 

一.问题的提出与重述

1.1问题的提出

人们到医院就诊时,通常要化验一些指标来协助医生的诊断。

诊断就诊人员是否患肾炎时,通常要化验人体内各种元素含量。

使用一种恰当的判别方法,判别前来诊断的人员属于患者或健康人的方法则成为至关重要的问题。

1.2问题的重述

人们到医院就诊时,通常要化验一些指标来协助医生的诊断。

诊断就诊人员是否患肾炎时,通常要化验人体内各种元素含量。

表B.1是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确定为健康人的结果。

表B.2是就诊人员的化验结果。

(1)根据表B.1中的数据,我们要提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验我们提出方法的正确性。

(2)按照1中我们给出的方法,选取最合理的一种判别方法对表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。

(3)根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。

(4)我们根据3的结果,重复2的工作,判断指标减少后对诊人员的分类判断。

二.问题分析

对于问题一,我们找到了常用的判别分析方法有:

Bayes判别、Fisher判别、距离判别,而Bayes判别的数据必须满足多元正态分布。

所以,我们先利用spss软件对表B.1中原始数据进行了多元正态检验,得出8种元素的显著性水平均小于0.05,拒绝接受正态分布的原假设,因此不能使用Bayes判别。

接着,我们以B.1中的数据为训练样本作为检验集,用Fisher判别和马氏距离判别对样本进行判断,得出:

Fisher判别的回待误判率和交叉误判率分别是6.3%、8.3%;马氏距离判别的回待误判率和交叉误判率分别是11.7%、11.7%。

所以Fisher判别比马氏距离判别更适合于此问题的研究。

对于问题二,通过问一我们已经知道,Fisher判别比马氏距离判别的准确性更高,所以更适合于此问题的研究,所以我们利用Fisher判别求出了30个就诊人员的重心(即F值)进一步计算它们分别距两类重心的距离,对30位就诊人员进行判别,得出30人中有15人未患病而15人患病。

采用Fisher判别对表B.2的数据进行判别,得出结论为:

15人未患病和15人患病。

对于问题三,我们利用主成分分析对化验的7个指标进行了相关性的分析,得出:

Na和K两者的相关性很强,Ca、Cu和Mg之间的两两相关也非常密切,且相关系数均在0.71以上。

由于这些指标间的相关性很强,为了优化指标,我们可以采用其中的一个指标Ca作为这三个指标的综合指标,K作为Na和K的综合指标。

这样,我们得到优化后的指标为Zn、Fe、Ca、K。

对于问题四,我们结合问三以优化后的4个指标Zn、Fe、Ca、K作为检验指标,利用Fisher判别重新对B.2表中的就诊人员进行判别,并将得出的数据于原始指标下的判别数据相比,得出:

出现5个误判,其中4人没病被误判成有病,1人有病被误判成没病,总的误判率为

=16.7%.优化后的指标虽然大大缩减了化验工作但在一定程度上增加了误判的概率。

最后我们对模型进一步的做了检验,提出了改进方案和模型推广

三.模型假设

(1)每个病人的化验结果是相互独立的;

(2)化验结果的数据都是有效的,不存在异常值;

(3)在检验过程中的误判不存在偶然误差

(4)未患病的就诊人员体内的指标元素含量正常;

四.变量与符号说明

回代误判率;

交叉误判率;

表示小椭圆油罐横截面的长半轴长,单位米;

特征根;

5.模型建立与求解

5.1判据方法的试用性分析

Bayes判别将所有类看作是空间中互斥的子域,每个观测点都是空间中的一点,它适合于多总体判别,它要求原始数据满足多元正态分布并且多元正态的协方差阵相等;Fisher的使用对总体的分布和方差都没有特殊的要求,且不需要做假设分布;马氏距离排除了指标间的相关性干扰,且不受量纲的影响。

由于题目并没有说明表中的数据是满足正态分布的,所以我们先对数据进行正态分布检验,检验之后判断是否还适合用Bayes判别。

由于表中所给的7种元素的值是不带单位的,我们很难判断他们是否处于处于同一个数量级,相应的均值和方差也不能确定,所以Fisher和马氏距离判别适合于此问题的分析;

5.2问题一的模型与建立

5.2.1多元正态分布的检验

我们利用SPSS软件导入数据得到的多元正态分布的检验表。

表1

正态性检验

Kolmogorov-Smirnova

Shapiro-Wilk

统计量

df

Sig.

统计量

df

Sig.

Zn

.181

60

.000

.888

60

.000

Cu

.278

60

.000

.442

60

.000

Fe

.303

60

.000

.524

60

.000

Ca

.148

60

.002

.827

60

.000

Mg

.148

60

.002

.728

60

.000

K

.305

60

.000

.492

60

.000

Na

.108

60

.081

.933

60

.003

a.Lilliefors显著水平修正

 

结果分析:

表1显示了8种元素的水平正态检验结果。

Kolmogorov-Smirnov和Shapiro-Wilk的统计量中的显著性水平(sig)除了Na为0.081,其余的显著性水平都小于0.05,表明8个水平对应的样本数据服从正态分布的原假设的概率几乎都小于0.05。

因此,拒绝原假设,而认为它们不服从正态分布,此时拒绝原假设犯错的概率不到0.05.

为了进一步的判断数据是否满足正态分布的规律我们对Q-Q图进行分析,下面各种元素的趋将标准Q-Q图。

从上面的正态Q-Q图可以看出每个水平上都有数据偏离直线,在Q-Q偏差图上,偏差数据明显不对称,这从另一方面再次说明原始资料数据不服从正态分布。

综上所述:

Bayes判据不适合用于此数据的分析。

5.2.2Fisher判别法

5.2.2.1Fisher的理论分析

Fisher的基本理论思想:

Fisher判别法同主成分分析法,基本思想是首先提出与各组有最大可能多重相关的变量的线性组合,即第一典型变量,然后提取第二典型变量,一般提取到两到三个典型变量后即可,再典型变量计算出个类别再低维空间中的重心变量,最后用各观测点离各类重心距离的远近来做出所属类别的判断。

Fisher判别函数:

我们可将样品x到某一类G的距离定义为

之间的欧氏距离其中c为G的几何中心.Fisher分类的判据为:

1若

,则判定义为A类;

2若

,则判定又为B类;

3若

,则判定为不可判类。

回代误判率:

设G1,G2为两个总体,X1,X2,…,Xm和Y1,Y2,…,Yn是分别来自G1,G2的训练样本,以全体训练样本作为m+n个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。

若属于G1的样品被误判为属于G2的个数为N1个,属于G2的样品被误判为属于G1的个数为N2个,则误判率估计为:

交叉误判率估计:

交叉误判率估计是每次剔除一个样品,利用其余的m+n-1个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。

对训练样本中每个样品都做如上分析,以其误判的比例作为误判率,具体步骤如下:

①从总体为G1的训练样本开始,剔除其中一个样品,剩余的m-1个样品与G2中的全部样品建立判别函数;

②用建立的判别函数对剔除的样品进行判别;

③重复步骤①,②,直到G1中的全部样品依次被删除,又进行判别,其误判的样品个数记为m12④对G2的样品重复步骤①,②,③直到G2中的全部样品依次被删除又进行判别,其误判的样品个数记为n21

于是交叉误判率估计为:

 

5.2.2.2Fishe判据正确性验证

特征值

函数

特征值

方差的%

累积%

正则相关性

1

2.112a

100.0

100.0

.824

a.分析中使用了前1个典型判别式函数。

表2

 

表中的特征根为

,该函数的判别能力为100%,判别函数与组间0.850(典型相关系数),所以该判别函数很好的解释了个变量间的关系。

表3典型判别函数系数表

变量

Zn

Cu

Fe

Ca

Mg

K

Na

(常量)

系数

0.001

-0.07

0.007

0.001

0.004

0

-0.001

-1.647

由此得到的判别式为:

同时我们还得到两组的中心:

第1组:

-1.429;第二组:

1.429

 

表4回代正确率率和交叉的正确率

分类结果b,c

组别

预测组成员

合计

1.00

2.00

初始

计数

1.00

30

0

30

2.00

4

26

30

%

1.00

100.0

.0

100.0

2.00

13.3

86.7

100.0

交叉验证a

计数

1.00

29

1

30

2.00

4

26

30

%

1.00

96.7

3.3

100.0

2.00

13.3

86.7

100.0

a.仅对分析中的案例进行交叉验证。

在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。

b.已对初始分组案例中的93.3%个进行了正确分类。

c.已对交叉验证分组案例中的91.7%个进行了正确分类。

从表中我们可以看出在回代检验过程中对于类型1(未患病)的判别是100%正确,而对于类型2(患病)有4个被误判成类型1正确率为86.7%。

综合来看总的回代误判率是6.7%,而交叉检验的误判率是8.3%。

 

5.2.3马氏距离判别法

5.2.3.1类间距离的定义

类间距离是基于点间距离定义的:

比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。

在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。

不同的选择的结果会不同,但一般不会差太多。

常用的距离判别法有:

欧氏距离、Minkowski距离、马氏距离。

而因为马氏距离具有以下优点:

(1)排除了指标间的相关性干扰;

(2)不受指标量纲的影响;(3)对原数据进行线性变换之后,马氏距离不变,所以本文采用的马氏距离。

B模距离:

对于任意的正定矩阵B,由下式确定的距离称为B模距离:

时,为马氏距离。

马氏距离:

\我们利用matlab软件导入B.1中的数据,依据协方差矩阵得不相等的条件进行编程得出数据:

回代误判率为11.7%,交叉误判率为11.7%.

综合分析:

从以上结论我们可以看得出:

Bayes不能用于分析此问题,而Fisher的回代误判率和交叉误判率均比马氏距离判别要小,所以Fisher判别比马氏距离的准确性更高,更适合于用于化验检查诊断的判断。

5.3问题二的求解

将前来就诊人员的化验数据代入到由问一得到的Fisher判别函数:

中得出各个就诊人员的各个坐标的重心值:

表5

病例号

F值

1类重心

2类重心

归类

61

-1.38187

-1.429

1.429

1

62

-0.44613

-1.429

1.429

1

63

0.20358

-1.429

1.429

2

64

-1.63791

-1.429

1.429

1

65

-0.63577

-1.429

1.429

1

66

-0.20472

-1.429

1.429

1

67

1.18319

-1.429

1.429

2

68

-0.21972

-1.429

1.429

1

69

-0.69375

-1.429

1.429

1

70

1.55219

-1.429

1.429

2

71

-0.73381

-1.429

1.429

1

72

-1.31857

-1.429

1.429

1

73

-1.13001

-1.429

1.429

1

74

0.79857

-1.429

1.429

2

75

-0.16463

-1.429

1.429

1

76

-0.90804

-1.429

1.429

1

77

0.22622

-1.429

1.429

2

78

0.47993

-1.429

1.429

2

79

-0.79325

-1.429

1.429

1

80

1.39249

-1.429

1.429

2

81

2.10618

-1.429

1.429

2

82

1.2933

-1.429

1.429

2

83

-1.57492

-1.429

1.429

1

84

0.53445

-1.429

1.429

2

85

-1.03617

-1.429

1.429

1

86

1.29709

-1.429

1.429

2

87

0.06091

-1.429

1.429

2

88

2.42327

-1.429

1.429

2

89

4.79041

-1.429

1.429

2

90

0.48475

-1.429

1.429

2

从上表可以得出各个就诊人员的F值,判断它们分别离于两类重心的距离,离得越近则判别属于那一类。

我们得出确诊为未患病的人有15人,而患病的人数有15人。

 

5.4模型三的建立和求解

5.4.1模型的建立

由于化验检查诊断中的诊断指标很多,在实际测量中工作量大和耗费大量的财力和精力,为了提高检测效率我们需要减少一些化验的指标,因此需要一个将多个具有一定相关性的指标化为少数和几个互不相干的综合指标的统计方法来解决此类问题,而主成分分析法正适合解决此类问题。

主成分的模型的建立:

表7

KMO和Bartlett的检验

取样足够度的Kaiser-Meyer-Olkin度量。

.712

Bartlett的球形度检验

近似卡方

226.892

df

21

Sig.

.000

从上表可以看出,球型检验的结果表明,在相关系数是一个单位矩阵的原始假设下,观测的显著性水平为0.000,故拒绝变量间全部相互独立的原假设,说明这些变量间至少有两个是相关的。

且KMO的值为0.712,用相关分析效果是比较好的。

表8相关性矩阵

相关矩阵

Zn

Cu

Fe

Ca

Mg

K

Na

相关

Zn

1.000

.116

.136

.407

.353

-.357

-.322

Cu

.116

1.000

.556

.710

.798

.015

.206

Fe

.136

.556

1.000

.429

.557

-.037

.112

Ca

.407

.710

.429

1.000

.845

-.167

-.065

Mg

.353

.798

.557

.845

1.000

-.119

.093

K

-.357

.015

-.037

-.167

-.119

1.000

.715

Na

-.322

.206

.112

-.065

.093

.715

1.000

注:

表中的相关系数表示在信度为0.01时,通过了双边检验显著性相关

可以看到相关性比较大的元素有:

Ca和Cu(0.710),Cu和Mg(0.798),Mg和Ca(0..845),也就是说,Ca、Cu和Mg之间的两两相关非常密切,Na和K(0.715)两者的相关性也很密切。

且相关系数均在0.71以上。

这些指标间的相关性很强,所以我们可以采用其中的一个指标Ca作为这三个指标的综合指标,K作为Na和K的综合指标。

这样,我们得到优化后的指标为Zn、Fe、Ca、K。

5.5模型四的建立与求解

我们以优化后的指标Zn、Fe、Ca、K来作为化验检查的指标,利用Fisher判据重新对B.2表中就诊人员进行化验结果的进行判别。

表9

病例号

原指标下的归类

优化指标下的归类

优化指标后的误判

61

1

1

0

62

1

1

0

63

2

1

1

64

1

1

0

65

1

1

0

66

1

1

0

67

2

1

1

68

1

1

0

69

1

1

0

70

2

2

0

71

1

1

0

72

1

1

0

73

1

1

0

74

2

2

0

75

1

2

1

76

1

1

0

77

2

2

0

78

2

2

0

79

1

1

0

80

2

2

0

81

2

2

0

82

2

2

0

83

1

1

0

84

2

1

1

85

1

1

0

86

2

2

0

87

2

1

1

88

2

2

0

89

2

2

0

90

2

2

0

注:

上表中优化指标后的误判中的“0”表示不出现误判、“1”表示误判。

从上面的表格中我们可以看出优化指标后和原指标相比出现了5个误判,其中4人没病被误判成有病,1人有病被误判成有病,分别是63、67、84、87和75号的就诊人员。

总的误判率为

=16.7%.优化后的指标虽然大大缩减了化验工作但在一定程度上增加了误判的概率。

5.6模型的检验

我们将优化后的指标作为化验指标对B.1表中的数据利用Fisher判别法进行判别,进一步的检验指标优化后与真实测量情况相比出现的误判率。

分类结果b,c

分类

预测组成员

合计

1.00

2.00

初始

计数

1.00

30

0

30

2.00

4

26

30

未分组的案例

18

12

30

%

1.00

100.0

.0

100.0

2.00

13.3

86.7

100.0

未分组的案例

60.0

40.0

100.0

交叉验证a

计数

1.00

30

0

30

2.00

6

24

30

%

1.00

100.0

.0

100.0

2.00

20.0

80.0

100.0

a.仅对分析中的案例进行交叉验证。

在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。

b.已对初始分组案例中的93.3%个进行了正确分类。

c.已对交叉验证分组案例中的90.0%个进行了正确分类。

从表中我们可以看出在回代检验过程中对于类型1(未患病)的判别是100%正确,而对于类型2(患病)有4个被误判成类型1正确率为86.7%。

综合来看总的回代误判率是6.7%,而交叉检验的误判率是10%。

总结:

结合问一我们知道,利用原指标进行Fisher判据得到的回代误判率和交叉误判率分别是6.7%、8.7%,与优化指标后相比回代误差率是一样的,而交叉误判率比原指标略高,总体上说利用主成分分析法得到的4个优化指标是能充分个代替原始指标的,利用这4个指标来作为化验指标

在保证准确率的前提下能节省大量的物力和财力还能提高检测效率。

六.模型的评价与改进

6.1模型的评价

6.1.1优点

(1)根据本文的确诊病例化验结果,我们采用了三种判别法方进行了分析并从中选取了最优的一种对就诊人员进行判别。

(2)优化后的指标模型在保证一定的正确率的前提下能大大的提高了检测效率

6.1.2缺点:

问一中的Fisher虽然是三种中的最有一种但还是存在一定的误判率

6.2模型的改进:

(1)我们可以采用神经网络判别来对模型进行优化;

(2)我们假设所有的数据都是有效的是不合理的,应该先进性残差分析去掉异常点;

七.模型的应用与推广

(1)加权马氏距离判别法可以运用在很多领域,如:

旅游信息智能推荐系统、岩体质量等级分类等。

(3)Fisher判别法在企业财务危机预警、产能预测和汽油分类分析过程中都有广泛的应用。

 

附录:

附件一:

clc

ill=load('illdata.txt');

health=load('headata.txt');

unk=load('unkdata.txt');

n1=length(ill(:

1));

n2=length('health(:

1)');

s1=cov(ill);

s2=cov(health);

p=7;

s=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2);

q1=(n1-1)*(log

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 自然科学 > 物理

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2