《统计分析与SPSS的应用第五版》课后练习答案第10章.docx

资源描述

《统计分析与SPSS的应用第五版》课后练习答案第10章.docx

《《统计分析与SPSS的应用第五版》课后练习答案第10章.docx》由会员分享，可在线阅读，更多相关《《统计分析与SPSS的应用第五版》课后练习答案第10章.docx（18页珍藏版）》请在冰点文库上搜索。

《统计分析与SPSS的应用第五版》课后练习答案第10章.docx

《统计分析与SPSS的应用第五版》课后练习答案第10章

《统计分析与SPSS的应用（第五版）》（薛薇）

课后练习答案

第10章SPSS的聚类分析

1、根据“高校科研研究。

sav”数据，利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。

要求：

1）根据凝聚状态表利用碎石图对聚类类数进行研究.

2）绘制聚类树形图，说明哪些省市聚在一起.

3）绘制各类的科研指标的均值对比图。

4）利用方差分析方法分析各类在哪些科研指标上存在显著差异。

采用欧氏距离，组间平均链锁法

利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图.大约聚成4类。

步骤：

分析→分类→系统聚类→按如下方式设置……

结果：

凝聚计划

阶段

组合的集群

系数

首次出现阶段集群

下一个阶段

集群1

集群2

集群1

集群2

328。

189

638.295

1053。

423

1209。

922

1505.035

1760.170

1831.926

1929.891

2302。

024

2487.209

2709。

887

2897。

106

2916.551

3280.752

3491.585

4229。

375

4612。

423

5377.253

5622。

415

5933.518

6827。

276

7930。

765

9475.498

14959.704

19623。

050

24042.669

32829。

466

48360。

854

91313。

530

293834.503

将系数复制下来后,在EXCEL中建立工作表.

选中数据列,点击“插入”菜单→拆线图……

碎石图：

由图可知，北京自成一类，江苏、广东、上海、湖南、湖北聚成一类.其他略。

接下来，添加一个变量CLU4_1，其值为类别值。

（1、2、3、4），再数据→汇总→设置……→确定.

均值对比，依据聚类解，利用分类汇总，计算各个聚类变量的均值

方差分析结果：

分析→比较均值→单因素ANOVA→设置……→确定

ANOVA

平方和

均方

显著性

投入人年数

组之间

59778341.196

19926113。

732

26。

428

。

000

组内

20357294.159

753973。

858

总计

80135635.355

投入高级职称的人年数

组之间

16485966.820

5495322.273

34。

553

.000

组内

4294074.147

159039.783

总计

20780040。

968

投入科研事业费（百元）

组之间

132451401880。

884

44150467293。

628

324.318

.000

组内

3675602946。

794

136133442.474

总计

136127004827。

677

课题总数

组之间

16470536.564

5490178.855

32。

181

。

000

组内

4606273.436

170602.720

总计

21076810。

000

专著数

组之间

7203690.385

2401230.128

61。

327

。

000

组内

1057167.809

39154.363

总计

8260858.194

论文数

组之间

219675698。

219

73225232。

740

17.693

.000

组内

111743385。

717

4138643.915

总计

331419083。

935

获奖数

组之间

169882.049

56627。

350

3.619

.026

组内

422436.790

15645。

807

总计

592318.839

不同组在各个聚类变量上的均值均存在显著差异。

2、试说明当变量存在数量级上的差异，进行层次聚类分析时为什么要对数据进行标准化处理?

因为数量级将对距离产生较大影响,并影响最终聚类结果。

3、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响?

为什么？

会.如果所选变量之间存在较强的线性关系，能够相互替代，在计算距离时同类变量将重复“贡献”，占有较高权重，而使最终的聚类结果偏向该类变量。

4、试说明K—Mean聚类分析的基本步骤.

K—Means聚类分析步骤：

确定聚类数目K—-确定K个初始类中心点-—根据距离最近原则进行分类—-重新确定K个类中心点-—判断是否已经满足终止条件。

是一个反复迭代的分类过程。

在聚类过程中，样本所属的类会不断调整，直至达到最终稳定为止.

5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据，数据文件名为:

“消费结构。

sav”，变量包括：

地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务、医疗保健、杂项商品和服务支出。

若采用层次聚类法（个体间距离定义为平方欧氏距离，类间距离定义为组间平均链锁距离），绘制的碎石图如下：

（1）依据上图,数据聚成几类较为恰当?

（2）试采用K—MEANS聚类方法,从类内相似性和类间差异性角度分析将数据聚成几类较为恰当。

（1）聚成3类较为恰当。

注：

碎石图可按第9章第1题方式绘制,也可按如下方式绘制。

步骤:

分析→降维→因子分析→导入全部变量到变量框中（地区变量除外）→抽取：

选中碎石图→继续→确定.

得到：

（可以看出,分成3类恰当）

（2）用K—MEANS聚类方法进行分类，比较分类数为2、3、4时的差别。

步骤：

分析→分类→K—平均聚类→地区变量导入到标注个案，其他变量全部导入到变量框中→聚类数填2→选项：

选中初始聚类中心和ANOVA→继续→确定。

得到:

ANOVA

聚类

错误

显著性

均方

食品

13927902.967

246753.779

56.445

.000

衣着

278718。

565

37555。

425

7。

422

.011

居住

667583。

436

31940.764

20.901

。

000

家庭设备用品及服务

411657。

258

14558.041

28.277

。

000

医疗保健

325304.302

34400.296

9。

456

。

005

交通和通信

10285607。

457

57486。

400

178.922

。

000

教育文化娱乐服务

5226361。

465

69080.933

75.656

.000

杂项商品和服务

248312.931

6496。

550

38。

222

.000

仅当出于描述目的时才应该使用F检验，因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的显著性级别并未因此得到更正，所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量

聚类

4.000

27。

000

有效

31.000

缺失

.000

将上图中的聚类数修改为3,则得到：

ANOVA

聚类

错误

显著性

均方

食品

8311754。

509

159294.770

52。

178

。

000

衣着

100878。

509

41645。

317

2。

422

.107

居住

565811。

147

16508。

690

34.274

.000

家庭设备用品及服务

237257。

836

12833.027

18。

488

.000

医疗保健

198689.996

33054.746

6.011

.007

交通和通信

4709934。

064

90458。

748

52.067

。

000

教育文化娱乐服务

2676015。

304

67059.926

39.905

。

000

杂项商品和服务

150742.666

4829.555

31。

213

。

000

仅当出于描述目的时才应该使用F检验，因为已选择聚类用于将不同聚类中的个案的差异最大化.受观察的显著性级别并未因此得到更正，所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量

聚类

1。

000

25.000

5。

000

有效

31。

000

缺失

.000

将上图中的聚类数修改为4，则得到：

ANOVA

聚类

错误

显著性

均方

食品

6461251。

597

62963。

251

102.619

。

000

衣着

135334。

013

35623.106

3.799

.022

居住

237725.271

32618.140

7。

288

。

001

家庭设备用品及服务

142250。

914

15077。

322

9。

435

.000

医疗保健

111992。

289

36553.186

3。

064

。

045

交通和通信

3596731。

324

43056.263

83.536

。

000

教育文化娱乐服务

1812882.568

66335.586

27。

329

。

000

杂项商品和服务

97486.291

5342。

741

18.246

.000

仅当出于描述目的时才应该使用F检验，因为已选择聚类用于将不同聚类中的个案的差异最大化。

受观察的显著性级别并未因此得到更正，所以无法将这些级别解释为“聚类方法是等同的”假设的检验。

每个聚类中的个案数量

聚类

1.000

3。

000

15。

000

12.000

有效

31.000

缺失

.000

从3个ANOVA表可以看出，分为2类时，P—值均小于0.05,表明有显著差异；分为3类时，出现了“衣着”的P—值为0。

107，大于0.05；分为4类时，P—值均小于0.05，表明有显著差异。

表明仅从ANOVA表看，分为3类，不合适。

再看F值，F值大表明组间差大，组内差小,即类内相似性大，类间差异性大,经比较可以看出，分类2类时,组间方差和组内方差均较大,而分为4类时，组间方差和组内方差相对来说，组内方差缩小得明显一些.

故分为4类较为恰当。

展开阅读全文