数据综合分析.docx

资源描述

数据综合分析.docx

《数据综合分析.docx》由会员分享，可在线阅读，更多相关《数据综合分析.docx（17页珍藏版）》请在冰点文库上搜索。

数据综合分析.docx

数据综合分析

南昌航空大学经济管理学院学生实验报告

实验课程名称：

统计软件及应用

专业

工商管理

班级学号

08092136

姓名

余泽飞

成绩

实验地点

G804

实验性质：

演示性验证性综合性设计性

实验项目

名称

数据综合分析

指导

教师

李晓辉

一、实验目的

掌握利用SPSS软件进行聚类分析和因子分析的方法，并能对实验结果进行解释。

二、实验内容及步骤

题目：

消费是实现国民经济良性循环的关键。

而消费结构是否合理又是消费的关键问题。

本题是应用聚类分析、因子分析这两种方法对我国31个省、市、自治区的城镇居民的消费结构之间的异同进行了比较研究。

从《中国统计年鉴-----2005》中选取了如下9个指标反映我国2004年各地区城镇居民家庭平均没人全年消费性支出，分别是：

总消费支出、食品消费支出、衣着消费支出、家庭设备用品及服务消费支出、医疗保健消费支出、交通和通信支出、娱乐教育文化服务消费支出、居民消费支出、杂项商品和服务消费支出等。

文件名为各省城镇居民家庭年人均消费性支出.sav，原始数据间下表。

我国2004年各地区城镇居民家庭年人均消费性支出

地区总消费食品衣着家庭设备医疗保健交通通信教育文化居住杂项商品

河南5294.191855.44650.30332.06436.53569.85694.56578.60176.84

山西5654.151917.75747.43314.82401.75587.00901.40614.20169.80

黑龙江5567.531972.24719.28215.07537.44548.39762.49611.44201.18

内蒙古6219.262024.87897.88360.31473.64699.66858.38627.02277.50

青海5758.952056.06621.98438.44451.95566.97746.89664.20212.47

新疆5773.622083.13766.73292.14375.18615.19840.59566.99233.66

河北5819.182142.36630.93343.21550.29595.95682.87705.18168.39

宁夏5821.382156.34636.81364.07440.77646.97651.14660.19265.08

吉林6068.992180.09739.52254.33527.32643.16795.04700.04229.51

甘肃5937.302204.04736.19336.20411.95601.16853.31572.49221.96

陕西6233.072236.48609.33409.00513.27583.191025.76646.92209.10

贵州5494.452260.46585.18286.56301.26601.08793.40468.21198.30

江西5337.842296.48513.57328.18268.11498.45785.66505.47141.93

山东6673.752310.66829.22457.33484.42801.23983.07601.54206.28

湖南6884.612479.58689.48388.15475.61881.891091.29640.73237.87

安徽5711.332509.02637.88257.01395.74564.92623.48534.30188.99

湖北6398.522516.20710.96334.12461.40600.48938.62641.62195.12

四川6371.142560.35557.94384.08433.36769.24874.37600.67191.15

辽宁6543.282643.95651.66276.89541.26652.40845.37661.80269.96

海南5802.402722.84300.17302.41350.17701.92686.75564.86173.29

广西6445.732727.09423.17397.33461.67584.12960.77660.26231.31

云南6837.012895.60651.72302.04623.22882.19725.08592.93164.21

江苏7332.262931.70610.96493.53496.77765.171031.14760.71242.28

重庆7973.053015.32779.68474.15537.95865.451200.52903.22196.77

天津8802.443278.24624.61497.48823.99787.711232.381230.17327.86

福建8161.153394.63598.37435.32476.751055.591050.30869.25280.93

西藏8338.213799.171079.74469.74320.651184.66617.39483.20383.66

浙江10636.143851.23941.80596.62828.811419.091681.09971.33346.17

北京12200.403925.541062.47823.841182.811562.192115.891065.67461.98

广东10694.793953.30620.07592.66649.701754.121577.701205.12342.11

上海12631.034593.32769.72780.26761.701702.862195.151326.69474.33

操作步骤与过程如下：

（方法一）聚类分析法：

1、选择Analyze→Classify→HierarchicalCluster…，打开系统聚类分析主对话框。

2、选择聚类分析变量（除了地区和总消费者两个指标），按→，将其一如Variable（s）栏中，如下图。

3、选择标识变量，单击“地区”，按→，将其移入LabelCasesby栏中，同样上图。

4、选择聚类方法，单击Method…,打开对话框，选择数值标准化Z-Score，聚类法采用Between-grouplinkage（即默认选项），距离测度采用Interval的SquaredEuclideandistance（即默认选项），如下图，单击Continue返回主对话框；

5、选择输出统计量，单击Statistics…,打开对话框，选择输出AgglomerationSchedule、ProximityMatrix、范围从3类到6类的聚类解，如下图，单击Continue返回主对话框；

6、选择输出聚类图，单击Plots…打开对话框，选择Dendrogram树形图，如下图，单击Continue返回主对话框；

7、选择Save…打开如下图的对话框，选择RangeofsolutionFrom3through6Cluster,单击Continue返回主对话框。

8、单击OK按钮，运行系统聚类分析。

（方法二）因子分析法：

1、打开数据文件我国2004年各地区城镇居民家庭年人均消费性支出.sav，选择Compute打开对话框，见下图。

2、在TargetVariable对话框中输入Z总消费，在Numericexpression对话框中输入表达式1/总消费，即对变量总消费取倒数生成新的变量Z总消费，用同样的方法将衣着取倒数生成新变量Z衣着。

3、选择Analyze→DataReduction→Factor，打开对话框，选择变量Z总消费、食品、Z衣着、家庭设备、医疗保险、交通通信、教育文化、居住、杂项商品，进入Variable对话框，见下图。

4、单击Descriptives按钮，打开子对话框，选择Initialsolution,Coefficients,见下图，返回主对话框。

5、单击Extraction按钮，打开子对话框，选择Screeplot，其余均选默认项，返回主对话框，见下图。

6、单击Rotation按钮，打开子对话框，选择Varimax,Rotatedsolution,Loadingplot,返回主对话框，见下图。

7、单击Score按钮，打开子对话框，选择Saveasvariables,Regression，返回主对话框，见下图所示。

8、单击Options按钮，打开子对话框，选择Excludecaseslistwise,返回主对话框，见下图所示。

9、单击OK按钮提交系统运行，显示结果清单。

三、实验结论

（方法一）聚类分析法输出的结果及其分析：

实验输出结果：

表1

表2

AgglomerationSchedule

ClusterCombined

Coefficients

StageClusterFirstAppears

NextStage

Stage

Cluster1

Cluster2

Cluster1

Cluster2

19371.015

24415.288

27642.674

34555.980

46888.952

48688.736

49015.886

56559.966

63146.116

68151.850

73676.111

87212.221

98656.043

100476.809

108994.957

112370.596

135105.050

190073.256

214182.912

262826.693

282598.135

318159.342

323633.392

392938.816

562792.901

661654.179

935712.324

1261865.923

2716471.849

5622491.295

表3

ClusterMembership

图1冰柱图

图2树形图（欧式距离平方、组间平均距离连接法）

******HIERARCHICALCLUSTERANALYSIS******

DendrogramusingAverageLinkage（BetweenGroups）

RescaledDistanceClusterCombine

CASE0510152025

LabelNum+---------+---------+---------+---------+---------+

新疆6

甘肃10

吉林9

内蒙古4

河北7

宁夏8

青海5

河南1

黑龙江3

山西2

贵州12

江西13

安徽16

湖北17

辽宁19

四川18

广西21

山东14

湖南15

陕西11

海南20

云南22

江苏23

重庆24

福建26

天津25

西藏27

浙江28

广东30

北京29

上海31

图3

实验结果及其分析：

（1）表1CaseProcessingSummary（数据信息汇总表）是缺失值报告，显示聚类分析的有效样品有31个，无缺失值。

（2）表2AgglomerationSchedule（聚类的凝聚过程表）显示聚类凝聚过程。

聚类一个分30步进行。

Coefficients值是距离测度值，可见随着聚类的进行而逐渐增大，开始增加的慢，后面增加的快，表明聚类开始时类间的差异小，结束时类间的差异大。

着正式系统聚类方法所表现出来的特征。

（3）表3ClusterMembership（聚类解）用欧式距离平方、组间类平均法生成的分为3类、4类、5类、6类时的聚类解。

（4）图1是冰柱图，由于太大了，所以只截了一小部分图。

比较混乱，一般选择分析树形图，即图2。

（5）图2是树形图。

树形图从右端看是看，一枝表示一类，像树枝一样向左展开。

比如从右边开始逐步分为两类，三类、四类等，到最后的末端时就是每个样品各成一类。

本题的树形图2是采用系统默认的方法进行分类的，明显分为三类，如下表4。

类别

样品

第一类（代表我国的较高消费水平）

北京、上海、广东、浙江

第二类（特例）

西藏

第三类（代表我国的一般消费水平）

其他的省（市、自治区）

（6）图3是在分析结果的同时，原数据集生成了clu6_1、clu5_1、clu4_1、clu3_1这四个新变量，用于记录聚类后每一观察对象所属类别。

比如：

clu6_1这一列表示的是第一次进行聚类分析，如果分为6类的话，这一个样品应属于哪一类。

同样的clu5_1表示的是如果分为5类的话，这个样品属于哪一类。

此外，还要强调的是并不是说第一类的消费水平一定比第二类的高，还要结合具体的数据进行分析。

（方法二）因子分析法输出的结果及其分析：

实验输出结果：

表1

表2

表3

图1

表4

表5

表6

实验结果及其分析：

（1）特征值表，此表数据说明，前四个因子的特征值共占去方差的94.10%，说明前四个因

子提供了原始数据的足够信息，见表3。

（2）因子得分表，得出各地区消费的31各省（市、自治区）的消费因子得分，并据此作出

排序，见表1和图1。

展开阅读全文