聚类分析例题.docx

资源描述

聚类分析例题.docx

《聚类分析例题.docx》由会员分享，可在线阅读，更多相关《聚类分析例题.docx（12页珍藏版）》请在冰点文库上搜索。

聚类分析例题.docx

聚类分析例题

5.2酿酒葡萄的等级划分

5.2.1葡萄酒的质量分类

由问题1中我们得知，第二组评酒员的的评价结果更为可信，所以我们通过第二组评酒员对于酒的评分做出处理。

我们通过excel计算出每位评酒员对每支酒的总分，然后计算出每支酒的10个分数的平均值，作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级，以百分制标准评级，总共评出了六个级别（见表5）。

表5：

葡萄酒等级表

等级

特优

优

优良

良

及格

不及格

分数

95-100

90-94

80-89

70-79

60-69

0-59

在问题2的计算中，我们求出了各支酒的分数，考虑到所有分数在区间[61.6,8L5]波动，以原等级表分级，结果将会很模糊，不能分得比较清晰。

为此我们需要进一步细化等级。

为此我们重新细化出5个等级，为了方便计算,我们还对等级进行降序数字等级（见表6）。

表&细化后的葡萄酒等级表

等级

偏优

偏优良

良

中

及格

分数

80-84

75-79

70-74

65-69

60-64

数字等级

通过对数据的预处理，我们得到了一个新的关于葡萄酒的分级表格（见表

7）：

表7：

各支葡萄酒的等级

编号

红酒

原等级

细化等级

白酒

原等级

细化等级

1号

68.1

77.9

2号

75.8

3号

74.6

75.6

4号

71.2

76.9

5号

72.1

81.5

6号

66.3

75.5

7号

65.3

74.2

8号

72.3

9号

7&2

80.4

10号

6&8

79.8

11号

61.6

71.4

12号

6&3

72.4

13号

68.8

73.9

14号

72.6

77.1

15号

65.7

78.4

16号

69.9

67.3

17号

74.5

80.3

18号

65.4

76.7

19号

72.6

76.4

20号

75.8

76.6

21号

72.2

79.2

22号

71.6

79.4

23号

77.1

77.4

24号

71.5

76.1

25号

68.2

79.5

26号

74.3

27号

71.5

28号

79.6

经过整理，我们初步得到了对于葡萄酒由

勺质量的分刁

1的表格。

考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系，我们将保留葡萄酒质量对于酿酒葡萄的影响，先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类，然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

5.2.2建立模型

在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程，我们用到了聚类分析方法中的ward最小方差法，又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。

所谓类，通俗地说，就是指相似元素的集合。

为了将样品进行分类，就需要研究样品之间关系。

这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点，并在空间的定义距离，距离较近的点归为一类；距离较远的点归为不同的类。

面对现在的问题,我们不知道元素的分类，连要分成几类都不知道。

现在我们将用SAS系统里面的stepdisc和cluster过程完成判别分析和聚类分析，最终确定元素对象的分类问题。

建立数据阵，具体数学表示为：

「九…Xw

X™•••••••••（5.2•1）

乂川…X叽

式中，行向量x严g，…,兀，”）表示第j个样品；

列向量Xj=（X\j，…,xnjyf,表示第j项指标。

（i=l,2,—,n;j=l,2,—m）

接下来我们将要对数据进行变化，以便于我们比较和消除纲号。

在此我们用了使用最广范的方法，ward最小方差法。

其中用到了类间距离来进行比较，定义为：

2=11疋一疋1|2/（I/哄+1/耳）

（5.2.2）

Ward方法并类时总是使得并类导致的类内离差平方和增量最小。

系统聚类数的确定。

在聚类分析中，系统聚类最终得到的一个聚类树，如何确定类的个数，这是一个十分困难但又必须解决的问题；因为分类本身就没有一定标准，人们可以从不同的角度给出不同的分类。

在实际应用中常使用下面

几种方法确定类的个数。

由适当的阀值确定，此处阀值为q-

根据样本的散点图直观的确定。

当样本所含指标只有2个或3个时，可运用散点图直观观察。

如果指标超过3个时，可用主成份法先综合指标。

根据统计量确定分类个数。

在SAS中，提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。

1）统计量：

疋=1_S；/S；=S；/S；

（5.2.3）

其中，S；为分类数为k个数时的总类内离差平方和，S；为所有样品或变量的总离差平方和。

F越大，说明类内的离差平方和在总离差平方和中比例较小,也就是分为k个类的效果越好。

显然分类越多，每个类离差越小，疋越大，所以我们只能取k使得用足够大，但k本身比较小，而且疋不再大幅度增加。

2）半偏R2统计量:

在把类Q和类C,合并为下一水平的类时，定义半偏相关：

半偏R2=Bkl/T（5.2.4）

其中以为合并类引起的类内离差平方和的增量：

St为类

C,的类内离差平方和。

半偏F用于评价单次合并效果，其值越大，说明上次合

并效果越好。

3）伪F统计量:

（5.2.5）

伪“统计量评价分为k个类的效果。

伪F统计量越大，表达分为k个类越合理。

通常取伪F统计量较大而类数小的聚类水平。

4）伪尸统计量：

（5.2.6）

广=BJ（（S女+SJ/（nk+q—2））

用此统计量评价合并类G和类q的效果，该值大说明合并的两个类Q和类

C,是很分开的，这个合并不成功，而应该去合并前的水平。

通过使用sas软件的cluster过程和tree过程，可以求解分析出结果。

5.2.3模型的求解与分析

首先，我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标，通过聚类分析，把酿酒葡萄分成五类，得到初步的结果（见图3）：

从图中我们能够直观的看到把酿酒葡萄分为5大类，为了检验效果，我们通过判别分析检验原本的28种葡萄分类的结果，得到表&

表8：

误判概率表（具体表见附录）

组号

概率

0.2727

0.1250

0.3333

0.4000

1.000

在误差一栏我们看到，每一组的分类都存在或多或少的误差，我们觉得这个结果是不满意的。

为了进一步优化方案以及简化分析过程，我们利用逐步判别法对参与分类的因素进行逐步剔除，以达到减少噪声干扰的目的，让得到的结果更加合理和完善。

通过逐步判别法，我们剔除了原本59个数据中的35个相关不大，造成干扰的因素，剩下了24个因素。

经过剔除干扰项后，为了检验剔除后干扰项后的结果是否更加合理，我们重新对剩余的24个因素进行了聚类分析，做谱系聚类图和判别分析。

得到了新的结果（见表9）：

表9：

优化后的聚类分析部分结果（详细见附录）

分类数

样品数

半偏F

伪F统计量

伪尸统计量

0.0171

0.915

47.6

9.1

0.0500

0.865

37.0

6.1

0.0612

0.804

32.9

17.3

0.1032

0.701

29.3

17.9

0.1648

0.536

30.1

10.0

0.5362

■

30.1

综合个数据检验，把葡萄分为5个类别是比较合理的一种方案，为了检验与之前的差异我们得到了新的谱系聚类图（见图4）

图

通过对比前后的两图，我们可以发现，分类的结果除了组间的类别有点波动之外，整体的分组是没有改变的。

所以，我们第一步得到了优化结果的可靠。

但仅仅用图说明是不够的，为此我们通过判别分析法，通过具体数据来说明分析结果的可靠。

表10：

优化后的判别分析表数据

组号

概率

0.1667

1.000

我们不难发现，表中的错误只在第3组出现了0.1667的误差，其他组是没有存在误差的。

这个结果是比较令人满意也令人信服的。

由此，我们得到的结果是，我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。

具体分类结果为:

表11：

白葡萄酒酿酒葡萄分类

分类/组数

组别

A/共组

Pl,P8,P13,P16,P17,P18,P19,P22

B/共组

P14,P21,P23

C/共组

P2,P3,P4,P6,P7,P9,P11,P12

D/共组

PIO,P20,P25,P26

E/共组

P3,P5,P15,P24,P27,P28

通过该组的成功检验，我们接下来将会对红葡萄酒的酿酒葡萄进行同算法的分类。

由于用到的算法与检验方法一样，所以这里不再累赘，将直接输出最后分组结果。

部分详细内容见附录。

表12：

红葡萄酒酿酒葡萄的分类

分类/组数

组别

A/共组

Pl,P4,P5,P8,P15,P17,P24

B/共组

P2,P7,P9,Pll,P19,P20,P22,P23

C/共组

PIO,P13,P14,P16,P25,P26,P27

D/共组

P6,P12,P18

E/共组

P3,P21

分类完毕，接下来我们将利用关于红酒质量的评分等级来对对应的葡萄进行评分，首先应该说明的是，烂葡萄是不能酿出好酒，根据这个，我们可以客观的说出一点，一般好的葡萄能酿出好的酒，可能酿酒过程会意外让酒变质导致酒变差，但好的酒由好的葡萄酿制出来是毫无疑问的。

为此我们把对于酒的等级相当于对葡萄打分。

每种葡萄分别得到分数s、，i表示第i种葡萄。

通过将每组的葡萄总分除以组内总数得到的数据，对葡萄进行分类，

分类指标=工&/组内数

通过指标的具体分数，我们就可以轻松对葡萄进行等级划分，结果见表13：

表13：

对白葡萄酒和红葡萄酒的酿酒葡萄评价分类有:

白葡萄酒酿酒葡萄

得分

等级

4.2

特优

优

C,D

3.75

良好

3.62

中

红葡萄酒酿酒葡萄

得分

等级

B,E

良好

A,C

2.57

中等

及格

procclusterdata=wgouttree=treemethod=ward

cccpseudoprint=15;

varal-a59;

idnumber;

run;

proctreedata=treeout=newnclusters=5graphics;

copyal-a59;

idnumber;

run;

procstepdiscdata二new;

classcluster;

run;

procdiscrimddtd二newoutstdt二newstdtmethod二normalpool=yeslistcrossvalidate;

classcluster;

priorsproportional;

varal-a59;

附录四：

第二小题，优化后的数据运行程序

procclusterdata=nwgouttree=treemethod=ward

cccpseudoprint=15;

varbl-b24;

idnumber;

run;

proctreedata二treeout=newnclusters=5graphics;

copybl-b24;

idnumber;

run;

procstepdiscdata=new;

classcluster;

run;

procdiscrimdata二newoutstat=newstatmethod=normalpool=yeslistcrossvalidate;

classcluster;

priorsproportional;

varbl-b24;

run;

附录五：

原判别分析表

TUrofCt^cr-^.tiwsendPercentClassifi^JintoCLl^TEE

FrowCLUSTER

Total

RatePriors

0.0714

附录六：

优化后的判别分析表

ClusterHistory

在表中的各列数据代表的意思是：

”NCL”为分类数量，表示新类别形成后类别的总数。

"-ClustersJoined—"为合并的类别，指明这一步合并了哪两个类，有两列。

其中OBx表示某一个原始样品，而CLx表示在某一个聚类水平上产生的类。

“FREQ”表示这次合并得到的类有多少个样品。

“SPRSQ”是半偏以，“RSQ”是以，”CCC”是考察聚类效果的统计量，该值越大，聚类水平越好，”PSF”为伪F统计量，“PST2”为伪2统计量，“Tie”指示距离最小的候选类对是否有多对，本例全无。

展开阅读全文