第十章 分类分析.docx

上传人:b****1 文档编号:2138031 上传时间:2023-05-02 格式:DOCX 页数:27 大小:145.84KB
下载 相关 举报
第十章 分类分析.docx_第1页
第1页 / 共27页
第十章 分类分析.docx_第2页
第2页 / 共27页
第十章 分类分析.docx_第3页
第3页 / 共27页
第十章 分类分析.docx_第4页
第4页 / 共27页
第十章 分类分析.docx_第5页
第5页 / 共27页
第十章 分类分析.docx_第6页
第6页 / 共27页
第十章 分类分析.docx_第7页
第7页 / 共27页
第十章 分类分析.docx_第8页
第8页 / 共27页
第十章 分类分析.docx_第9页
第9页 / 共27页
第十章 分类分析.docx_第10页
第10页 / 共27页
第十章 分类分析.docx_第11页
第11页 / 共27页
第十章 分类分析.docx_第12页
第12页 / 共27页
第十章 分类分析.docx_第13页
第13页 / 共27页
第十章 分类分析.docx_第14页
第14页 / 共27页
第十章 分类分析.docx_第15页
第15页 / 共27页
第十章 分类分析.docx_第16页
第16页 / 共27页
第十章 分类分析.docx_第17页
第17页 / 共27页
第十章 分类分析.docx_第18页
第18页 / 共27页
第十章 分类分析.docx_第19页
第19页 / 共27页
第十章 分类分析.docx_第20页
第20页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

第十章 分类分析.docx

《第十章 分类分析.docx》由会员分享,可在线阅读,更多相关《第十章 分类分析.docx(27页珍藏版)》请在冰点文库上搜索。

第十章 分类分析.docx

第十章分类分析

第十章 分类分析

第一节K-MeansCluster过程

10.1.1主要功能

10.1.2实例操作

第二节HierarchicalCluster过程

10.2.1主要功能

10.2.2实例操作

第三节Discriminant过程

10.3.1主要功能

10.3.2实例操作

 

    人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而分类学是人们认识世界的基础科学。

在医学实践中也经常需要做分类的工作,如根据病人的一系列症状、体征和生化检查的结果,判断病人所患疾病的类型;或对一系列检查方法及其结果,将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙类病的检查;等等。

统计学中常用的分类统计方法主要是聚类分析与判别分析。

    聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。

判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。

聚类分析与判别分析有很大的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新对象的分类。

   

第一节 K-MeansCluster过程

 

10.1.1 主要功能

    调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。

所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。

 

 

10.1.2 实例操作

   [例10.1]为研究儿童生长发育的分期,调查1253名1月至7岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。

资料作如下整理:

先把1月至7岁划成19个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。

欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。

 

月份

月平均增长率(%)                                           

身高

体重

胸围

坐高

1

2

3

4

6

8

10

12

15

18

24

30

36

42

48

54

60

66

72

11.03

5.47

3.58

2.01

2.13

2.06

1.63

1.17

1.03

0.69

0.77

0.59

0.65

0.51

0.73

0.53

0.36

0.52

0.34

50.30

19.30

9.85

4.17

5.65

1.74

2.04

1.60

2.34

1.33

1.41

1.25

1.19

0.93

1.13

0.82

0.52

1.03

0.49

11.81

5.20

3.14

1.47

1.04

0.17

1.04

0.89

0.53

0.48

0.52

0.30

0.49

0.16

0.35

0.16

0.19

0.30

0.18

11.27

7.18

2.11

1.58

2.11

1.57

1.46

0.76

0.89

0.58

0.42

0.14

0.38

0.25

0.55

0.34

0.21

0.55

0.16

 

10.1.2.1  数据准备

    激活数据管理窗口,定义变量名:

虽然月份分组不作分析变量,但为了更直观地了解聚类结果,也将之输入数据库,其变量名为month;身高、体重、胸围和坐高的变量名分别为x1、x2、x3和x4,输入原始数额。

 

10.1.2.2  统计分析

    激活Statistics菜单选Classify中的K-MeansCluster...项,弹出K-MeansClusterAnalysis对话框(如图10.1示)。

从对话框左侧的变量列表中选x1、x2、x3、x4,点击Ø钮使之进入Variables框;在NumberofClusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两种:

Iterateandclassify指先定初始类别中心点,而后按K-means算法作叠代分类,Classifyonly指仅按初始类别中心点分类,本例选用前一方法。

 

 

图10.1  逐步聚类分析对话框

 

       为在原始数据库中逐一显示分类结果,点击Save...钮弹出K-MeansCluster:

SaveNewVariables对话框,选择Clustermembership项,点击Continue钮返回K-MeansClusterAnalysis对话框。

       本例还要求对聚类结果进行方差分析,故点击Options...钮弹出K-MeansCluster:

来Options对话框,在Statistics栏中选择ANOVAtable项,点击Continue钮返回K-MeansClusterAnalysis对话框,再点击OK钮即完成分析。

 

10.1.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

       首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K-means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。

 

InitialClusterCenters.

      Cluster      X1            X2           X3           X4

        1        11.0300       50.3000       11.8100       11.2700

        2         5.4700       19.3000        5.2000        7.1800

        3         3.5800        9.8500        3.1400        2.1100

        4          .3400         .4900         .1800         .1600

 

Convergenceachievedduetonoorsmalldistancechange.

Themaximumdistancebywhichanycenterhaschangedis.0000

Currentiterationis  2

 

Minimumdistancebetweeninitialcentersis10.5200

 

   Iteration               ChangeinClusterCenters

                    1         2         3         4

     1             .0000     .0000  2.46E+00  1.27E+00

     2             .0000     .0000     .0000     .0000

 

CaselistingofClustermembership.

     CaseID   Cluster       Distance

       1         1           .000

       2         2           .000

       3         3          2.457

       4         4          3.219

       5         3          2.457

       6         4          1.530

       7         4          1.346

       8         4           .515

       9         4           .915

      10         4           .266

      11         4           .281

      12         4           .668

      13         4           .467

      14         4           .844

     15         4           .415

      16         4           .873

      17         4          1.215

      18         4           .619

      19         4          1.269

 

 FinalClusterCenters.

     Cluster        X1            X2           X3           X4

        1        11.0300       50.3000       11.8100       11.2700

        2         5.4700       19.3000        5.2000        7.1800

        3         2.8550        7.7500        2.0900        2.1100

        4          .9060        1.4660         .4820        .6560

 

 

       之后对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均<0.001,即聚类效果好。

这样,原有19类(即原有的19个月份分组)聚合成4类,第一类含原有1类,第二类含原有1类,第三类含原有2类,第四类含原有15类。

具体结果系统以变量名QCL_1存于原始数据库中。

 

DistancesbetweenFinalClusterCenters.

     Cluster         1             2             3             4

        1          .0000

        2        32.4397         .0000

        3        45.3400       13.2521         .0000

        4        52.2325       20.0924        6.9273         .0000

 

 AnalysisofVariance.

 Variable       ClusterMS   DF        ErrorMS     DF         F      Prob

    X1          37.5806    3             .369      15.0     101.7853   .000

    X2         817.1164    3            1.354      15.0     603.2588   .000

    X3          45.4089    3             .281      15.0     161.1145   .000

    X4          46.0994    3             .235      15.0     195.4933   .000

 

 NumberofCasesineachCluster.

      Cluster       unweightedcases    weightedcases

        1                   1.0               1.0

        2                   1.0               1.0

        3                   2.0               2.0

        4                  15.0              15.0

  Missing                     0

  Validcases              19.0              19.0

 

 VariableSavedintoWorkingFile.

  QCL_1(ClusterNumber)

 

 

       在原始数据库(图10.2)中,我们可清楚地看到聚类结果;参照专业知识,将儿童生长发育分期定为:

       第一期,出生后至满月,增长率最高;

       第二期,第2个月起至第3个月,增长率次之;

       第三期,第3个月起至第8个月,增长率减缓;

       第四期,第8个月后,增长率显著减缓。

 

 

图10.2  逐步聚类分析的分类结果

 

第二节 HierarchicalCluster过程

 

10.2.1 主要功能

    调用此过程可完成系统聚类分析。

在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。

系统聚类分析有两种形式,一是对研究对象本身进行分类,称为Q型举类;另一是对研究对象的观察指标进行分类,称为R型聚类。

 

10.2.2 实例操作

   [例10.2]29名儿童的血红蛋白(g/100ml)与微量元素(μg/100ml)测定结果如下表。

由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济快捷地评价儿童的营养状态。

 

编号

N0.

X1

X2

X3

X4

X5

血红蛋白

X6

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

54.89

72.49

53.81

64.74

58.80

43.67

54.89

86.12

60.35

54.04

61.23

60.17

69.69

72.28

55.13

70.08

63.05

48.75

52.28

52.21

49.71

61.02

53.68

50.22

65.34

56.39

66.12

73.89

47.31

30.86

42.61

52.86

39.18

37.67

26.18

30.86

43.79

38.20

34.23

37.35

33.67

40.01

40.12

33.02

36.81

35.07

30.53

27.14

36.18

25.43

29.27

28.79

29.17

29.99

29.29

31.93

32.94

28.55

448.70

467.30

425.61

469.80

456.55

395.78

448.70

440.13

394.40

405.60

446.00

383.20

416.70

430.80

445.80

409.80

384.10

342.90

326.29

388.54

331.10

258.94

292.80

292.60

312.80

283.00

344.20

312.50

294.70

 0.012

 0.008

 0.004

 0.005

 0.012

 0.001

 0.012

 0.017

 0.001

 0.008

 0.022

 0.001

 0.012

 0.000

 0.012

 0.012

 0.000

 0.018

 0.004

 0.024

 0.012

 0.016

 0.048

 0.006

 0.006

 0.016

 0.000

 0.064

 0.005

1.010

1.640

1.220

1.220

1.010

0.594

1.010

1.770

1.140

1.300

1.380

0.914

1.350

1.200

0.918

1.190

0.853

0.924

0.817

1.020

0.897

1.190

1.320

1.040

1.030

1.350

0.689

1.150

0.838

13.50

13.00

13.75

14.00

14.25

12.75

12.50

12.25

12.00

11.75

11.50

11.25

11.00

10.75

10.50

10.25

10.00

 9.75

 9.50

 9.25

 9.00

 8.75

 8.50

 8.25

 8.00

 7.80

 7.50

 7.25

 7.00

 

10.2.2.1  数据准备

    激活数据管理窗口,定义变量名:

钙、镁、铁、锰、铜和血红蛋白的变量名分别为x1、x2、x3、x4、x5、x6,之后输入原始数据。

 

10.2.2.2  统计分析

    激活Statistics菜单选Classify中的HierarchicalCluster...项,弹出HierarchicalClusterAnalysis对话框(图10.3)。

从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击Ø钮使之进入Variable(s)框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,本例选择Variables。

 

 

图10.3  系统聚类分析对话框

 

       点击Statistics...钮,弹出HierarchicalClusterAnalysis:

Statistics对话框,选择Distancematrix,要求显示距离矩阵,点击Continue钮返回HierarchicalClusterAnalysis对话框(图10.4)。

 

 

图10.4  系统聚类方法选择对话框

 

       本例要求系统输出聚类结果的树状关系图,故点击Plots...钮弹出HierarchicalClusterAnalysis:

Plots对话框,选择Dendrogram项,点击Continue钮返回HierarchicalClusterAnalysis对话框。

       点击Method...钮弹出HierarchicalClusterAnalysis:

Method对话框,系统提供7种聚类方法供用户选择:

       Between-groupslinkage:

类间平均链锁法;    

       Within-groupslinkage:

类内平均链锁法;

       Nearestneighbor:

最近邻居法;

       Furthestneighbor:

最远邻居法;

       Centroidclustering:

重心法,应与欧氏距离平方法一起使用;

       Medianclustering:

中间距离法,应与欧氏距离平方法一起使用;

       Ward'smethod:

离差平方和法,应与欧氏距离平方法一起使用。

       本例选择类间平均链锁法(系统默认方法)。

在选择距离测量技术上,系统提供8种形式供用户选择:

       Euclideandistance:

Euclidean距离,即两观察单位间的距离为其值差的平方和的平方根,该技术用于Q型聚类;

       SquaredEuclideandistance:

Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类;

       Cosine:

变量矢量的余弦,这是模型相似性的度量;

       Pearsoncorrelation:

相关系数距离,适用于R型聚类;

       Chebychev:

Chebychev距离,即两观察单位间的距离为其任意变量的最大绝对差值,该技术用于Q型聚类;

       Block:

City-Block或Manhattan距离,即两观察单位间的距离为其值差的绝对值和,适用于Q型聚类;

       Minkowski:

距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的平方根;p由用户指定

       Customized:

距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的第r次根,p与r由用户指定。

       本例选用Pearsoncorrelation,点击Continue钮返回HierarchicalClusterAnalysis对话框,再点击OK钮即完成分析。

 

10.2.2.3  结果解释

       在结果输出窗口中将看到如下统计数据:

       共29例样本进入聚类分析,采用相关系数测量技术。

先显示各变量间的相关系数,这对于后面选择典型变量是十分有用的。

然后显示类间平均链锁法的合并进程,即第一步,X3与X6被合并,它们之间的相关系数最大,为0.863431;第二步,X1与X5合并,其间相关系数为0.624839;第三步,X2与第一步的合并项被合并,它们之间的相关系数为0.602099;第四步,它们与第二步的合并项再合并,其间相关系数为0.338335;第五步,与最后一个变量X4合并,这个相关系数最小,为-0.054485。

 

DataInformation

         29unweightedcasesaccepted.

          0casesrejectedbecauseofmissingvalue.

Correlationmeasureused.

 

CorrelationSimilarityCoefficientMatrix

 Variable       X1           X2           X3          X4           X5

   X2        .5379

   X3        .2995         .6349

   X4        .1480        -.1212        -.2706

   X5        .6248         .5820         .2653         .2939

   X6    

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 人文社科 > 法律资料

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2