SPSS操作方法聚类分析.docx

上传人:b****2 文档编号:17155743 上传时间:2023-07-22 格式:DOCX 页数:17 大小:33.32KB
下载 相关 举报
SPSS操作方法聚类分析.docx_第1页
第1页 / 共17页
SPSS操作方法聚类分析.docx_第2页
第2页 / 共17页
SPSS操作方法聚类分析.docx_第3页
第3页 / 共17页
SPSS操作方法聚类分析.docx_第4页
第4页 / 共17页
SPSS操作方法聚类分析.docx_第5页
第5页 / 共17页
SPSS操作方法聚类分析.docx_第6页
第6页 / 共17页
SPSS操作方法聚类分析.docx_第7页
第7页 / 共17页
SPSS操作方法聚类分析.docx_第8页
第8页 / 共17页
SPSS操作方法聚类分析.docx_第9页
第9页 / 共17页
SPSS操作方法聚类分析.docx_第10页
第10页 / 共17页
SPSS操作方法聚类分析.docx_第11页
第11页 / 共17页
SPSS操作方法聚类分析.docx_第12页
第12页 / 共17页
SPSS操作方法聚类分析.docx_第13页
第13页 / 共17页
SPSS操作方法聚类分析.docx_第14页
第14页 / 共17页
SPSS操作方法聚类分析.docx_第15页
第15页 / 共17页
SPSS操作方法聚类分析.docx_第16页
第16页 / 共17页
SPSS操作方法聚类分析.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

SPSS操作方法聚类分析.docx

《SPSS操作方法聚类分析.docx》由会员分享,可在线阅读,更多相关《SPSS操作方法聚类分析.docx(17页珍藏版)》请在冰点文库上搜索。

SPSS操作方法聚类分析.docx

SPSS操作方法聚类分析

实验指导之一

聚类分析的SPSS操作方法

•系统聚类法

实验例城镇居民消费水平通常用下表中的八项指标来描述。

八项指标间存在一定的线性相关。

为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。

实验数据表2001年30个省。

市,自治区城镇居民月平均消费数据

x1人均粮食支出(元/人)x5人均衣着商品支出(元/人)

X2人均副食支出(元/人)X6人均日用品支出(元/人)

X3人均烟、酒、茶支出(元/人)X7人均燃料支出(元/人)

X4人均其他副食支出(元/人)X8人均非商品支出(元/人)

Xi

X2

X3

X4

X5

X6

X7

X8

北京

天津

河北

山西

内蒙古

辽宁

吉林

黑龙江

上海

江苏

浙江

安徽

福建

江西

山东

河南

湖北

湖南

13.23

广东

广西

海南

四川

贵州

云南

西藏

陕西

甘肃

青海

宁夏

新疆

系统聚类法的SPSS操作:

1.从数据编辑窗口点击Analyze—Classify—HierachicalCluster,(见

图1)

图1系统聚类法

打开层次聚类法对话如图2。

图2系统聚类法对话框

选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:

Cases对样品聚类(Q型;系统默认),

Variable对指标变量聚类(R型),本例选择。

在Display栏中选择默认的输出项。

2.点击Statistics按钮,打开对话框如图3.

图3Statistics对话框

Agglomerationschedule输出凝聚状态表(聚类进度表);本例选择

Ploximitymatrix输出个体间的距离矩阵,本例选择。

ClusterMembership栏中显示每个观测量被分派到的类。

None不输出。

本例选择。

Simplesolution指定分类数,并输出样本所属类,单一解。

Rengeofsolution指定输出从m到n类的各样本所属类。

多个解。

选好后返回主对话框。

3.单击Method按钮,打开对话框如图4-1.

ClusterMethod:

选择聚类方法:

SPSS中提供7种聚类方法,分别是:

类间平均,类内平均,最短距离,最长距离,重心法,中值法,最小平方和法。

本例选择类间平均。

Measure栏:

对距离的测度方法选择

SPSSt提供了三种类型:

Interval等间距度量的变量(连续型),Counts计数型变量(离散型)和Binary二值变量。

Interval等间隔测度的变量方法包括:

Euclideandistanee欧氏距离;

SquaredEuclideandistanee欧氏平方距离;

Cosine夹角余弦(R型聚类);

PearsonCorrelation皮尔逊相关系数距离(R型聚类),本例选择此项。

Chebyehev契比雪夫距离;

block距离;

Minkowski明氏距离;

Customized用户自定义距离--即变量绝对值的第p次幕之和的第r次根。

p与r由用户指定。

图4-1Method对话框

TransformValues栏,选择消除数量级差的方法(见图4-2),依次是:

None不作处理(系统默认);本例选择此项。

Zscores标准化处理;

Range-1to1各变量值除全距;

Range0to1各变量值减最小值后除全距;

Maximummagnitudeof1各变量值除最大值;

Meanof1各变量值除以均值;

Standarddeviationof1各变量值除以标准差。

图4-2Method对话框

4.单击Plots按钮,打开对话框如图5.

图5Plots对话框

Dendrogram表示输出树形图,本例选择此项。

Icicle表示输出冰柱图。

其中,

Allclusters表示输出聚类分析每个阶段的冰柱图;本例选择此项。

Specifiedrangeofcluster表示只输出某个阶段的冰柱图,输入从第

几步开始到第几步结束,中间间隔几步。

Orientationk栏中指定如何显示冰挂图:

Vertical纵向显示,本例选择此项。

Horizontal横向显示。

图6SaveNewVariables对话框

5.单击Save按钮,打开SaveNewVariables对话框,如图6所示。

选择是否将聚类的结果以变量形式保存在数据文件中。

变量名为:

clun_m,

其中n表示类数,m表示第m次分析。

ClusterMembership栏

None不输出

Simplesolution指定分类数,并输出样本所属类。

单一变量。

Rengeofsolution指定输出从m到n类的各样本所属类。

多个变量。

当选择结束后,在主对话框中点击0K可得下面的输出表和图。

ProximityMatrix两两变量间距离矩阵(相关系数矩阵)

Case

MatrixFileInput

人均粮

人均副

人均燃

食支岀

食支岀

人均烟、

人均其他

人均衣着

人均日用

料支岀

人均非商

(元/

(元/

酒、茶支岀

副食支岀

商品支岀

品支出

(元/

品支出

人)

人)

(元/人)

(元/人)

(元/人)

(元/人)

人)

(元/人)

人均粮食支岀

(元/人)

.000

.334

.197

.349

.319

人均副食支岀

(元/人)

.334

.000

.399

.716

.414

.835

人均烟、酒、茶支出(元/人)

.000

.533

.497

.033

人均其他副食支出(元/人)

.399

.533

.000

.698

.478

.313

人均衣着商品支出(元/人)

.497

.698

.000

.284

人均日用品支出

(元/人)

.197

.716

.033

.478

.284

.000

.408

.710

人均燃料支岀

(元/人)

.349

.414

.408

.000

.399

人均非商品支出

(元/人)

.319

.835

.313

.710

.399

.000

AverageLinkage(BetweenGroups)类间平均

AgglomerationSchedule凝聚状态进度表;

Stage

ClusterCombined

Coefficient

s

StageClusterFirst

Appears

NextStage

Cluster1

Cluster2

Cluster1

Cluster2

1

2

8

.835

0

0

2

2

2

6

.713

1

0

5

3

4

5

.698

0

0

4

4

3

4

.515

0

3

7

5

2

7

.407

2

0

6

6

1

2

.299

0

5

7

7

1

3

.004

6

4

0

凝聚状态进度表:

第一列(Stage)表示聚类的进度顺序;第二、三列(Clustercombine)表示每一步将哪两类合并;第四列(Cofficients)表示被合并的两类之间的距离;第五、六列(StageClusterFirstAppares)表示被合并的两类上一

次合并分别是在哪一步形成的。

0表示被合并的类为单个样品。

最后一列(NextStage)表示每一步形成的新类将在哪一步参与下一次合并。

VerticalIcicle冰柱图

Case

/、

烟、

酒、

(元

(元

(元

(元

(元

(元

(元

/

/

/

/

/

/

/

元/

Numberofclusters

人)

人)

人)

人)

人)

人)

人)

人)

1

X

X

X

X

X

X

X

X

X

X

X

X

X

X

X

2

X

X

X

X

X

X

X

X

X

X

X

X

X

X

3

X

X

X

X

X

X

X

X

X

X

X

X

X

4

X

X

X

X

X

X

X

X

X

X

X

X

5

X

X

X

X

X

X

X

X

X

X

X

6

X

X

X

X

X

X

X

X

X

X

7

X

X

X

X

X

X

X

X

X

Dendrogram表示输出树形图(谱分析图)

******HIERARCHICALCLUSTERANALYSIS******

DendrogramusingAverageLinkage(BetweenGroups类间平均)

RescaledDistaneeClusterCombine

CASE0510152025

LabelNum++++++

X22

X88

X66

X77

X11

X44

X55

X33

K-聚类法的具体操作

以例为例,说明快速聚类法的操作过程。

1.在数据窗口单击AnalyzefClassifyfK-MeanCluster打开对话框(见图7)

图7K-MeansClusterAnalysis对话框

将变量选入Variables栏;

将标识变量选入LabelCases栏(可省略)

将分类数输入Numberof框(系统默认为2),本例中选择4.

Method栏聚类方法栏

Iterateandclassify(按K-means算法)叠代分类(系统默认)。

Classifyonly仅按初始类别中心点分类(不叠代)。

Centers类中心数据的输入与输出(可省略)

Readinitialfrom使用指定数据文件中的数据作为初始类中心(文件

格式参考Writefinalas文件格式)

选择Writefinalas把聚类结果中的各类中心数据保存到指定的文件。

本例中选择系统默认项。

2.单击Iterate按钮,打开Iterate对话框如图8所示:

MaximumIterations限定K-Means算法的迭代次数,系统默认值10

ConvergeneeCriterion-指定限定收敛标准,系统默认值为0。

Userunningmeans限定在每个观测量被分配到一类后即刻计算新的类中心,不选此项表示只有当全部样本的类分配完后再计算类中心,可以节省运算时间,所以一般情况下不选择此项。

本例中选择默认项。

图8Iterate对话框

3.单出Save按钮,打开Save对话框见图9.

ClusterMember在原数据文件中保存分类结果(本例选择)

Distaneefromclustercenter在原数据文件中保存各观测量距

所属类中心间的欧氏距离。

图9Save对话框

4.单击Options按钮,打开Options对话框见图10。

Statistics栏

Initialclustercenters输出初始类中心。

ANOVAtable输出方差分析表

Clusterinformationforeachcase每个观测量的分类信息(分类结

果和该观测量距所属类中心的距离等)

图10Options对话框

MissingValues栏

Excludecaseslistwise将出现在Variables变量表中变量带有缺失值得

观测量从分析中剔除(系统默认)

Excludecasespairwise只有当一个观测量的全部聚类变量值均缺失时才

将其从分析中剔除,否则根据所有其他非缺失变量值把它分配到最近的一类中去。

全部选择完成后得到输出结果。

InitialClusterCenters初始类中心

Cluster

1234

x1

人均粮食支岀

(元/人)

x2

人均副食支岀

(元/人)

x3

人均烟、酒、饮料支岀

(元/人)

x4

人均其他副食支岀

(元/人)

x5

人均衣着支岀

(元/人)

x6

人均日用杂品支出

(元/人)

x7

人均水电燃料支岀

(元/人)

x8

人均其他非商品支出

(元/人)

Iteration

ChangeinClusterCenters

1

2

3

4

1

.000

2

.000

.000

3

.000

.000

.000

.000

a.Convergenceachievedduetonoorsmallchangeinclustercenters.

Themaximumabsolutecoordinatechangeforanycenteris.000.Thecurrentiterationis3.Theminimumdistancebetweeninitialcentersis.

ClusterMembership(聚类结果)

CaseNumber

地区

Cluster

Distance

1

北京

1

2

天津

3

3

河北

4

4

山西

4

5

内蒙古

4

6

辽宁

4

7

吉林

4

8

黑龙江

4

9

上海

1

10

江苏

3

11

浙江

1

12

安徽

4

13

福建

3

14

江西

4

15

山东

4

16

河南

4

17

湖北

4

18

湖南

3

19

广东

2

.000

20

广西

4

21

海南

4

22

重庆

3

23

四川

4

24

贵州

4

25

云南

4

26

西藏

3

27

陕西

4

28

甘肃

4

29

青海

4

30

宁夏

4

31

新疆

4

聚类结果中的第四列显示的是各样本与其所属类的中心之间的距离。

上述结果可通过“save”按钮设置,保存至原始数据文件中。

FinalClusterCenters类中心

 

ANOV方差分析表

Cluster|

Error

F

Sig.

MeanSquare

df

MeanSquare

df

x1人均粮食支出(元/人)

3

27

.082

x2人均副食支出(元/人)

3

27

.000

x3人均烟、酒、饮料支出(元/人)

3

27

.003

x4人均其他副食支出(元/人)

3

27

.000

x5人均衣着支出(元/人)

3

27

.003

x6人均日用杂品支出(元/人)

3

27

.000

x7人均水电燃料支出(元/人)

3

27

.001

x8人均其他非商品支出(元/人)

.000

327

TheFtestsshouldbeusedonlyfordescriptivepurposesbecausetheclustershavebeenchosentomaximizethedifferencesamongcasesindifferentclusters.Theobservedsignificancelevelsarenotcorrectedforthisandthuscannotbeinterpretedastestsofthehypothesisthattheclustermeansareequal.

由输出结果知,8个变量指标中除了第一个变量外,其它指标对分类的贡献是显著的。

Cluster

1

2

3

4

1

2

3

4

NumberofCasesineachCluster

Cluster

1

2

3

4

Valid

Missing

.000

最终每类的样品个数

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 理学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2