聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx

上传人:b****2 文档编号:1517576 上传时间:2023-04-30 格式:DOCX 页数:17 大小:54.38KB
下载 相关 举报
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第1页
第1页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第2页
第2页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第3页
第3页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第4页
第4页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第5页
第5页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第6页
第6页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第7页
第7页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第8页
第8页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第9页
第9页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第10页
第10页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第11页
第11页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第12页
第12页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第13页
第13页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第14页
第14页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第15页
第15页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第16页
第16页 / 共17页
聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx_第17页
第17页 / 共17页
亲,该文档总共17页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx

《聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx》由会员分享,可在线阅读,更多相关《聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx(17页珍藏版)》请在冰点文库上搜索。

聚类分析报告与判别分析报告实验报告材料范例Word文件下载.docx

距离判别的基本原理是:

首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:

式中

为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。

贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。

费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体

的距离可以用欧式距离度量,即:

由此导出Fisher判别规则为:

,则

本文及使用Fisher判别建立线性判别函数进行距离判别。

3,模型建立

3.1设置变量

本文综合考虑了评价城市发展指数衡量因素,选取衡量一个城市经济发展水平的主要因素,城市化进程总是伴随着工业化发展,发达的服务业水平是衡量现代新兴城市的主要指标,此外,综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标:

X1:

城市第二产业产值(亿元)

X2:

城市第三产业产值(亿元)

X3:

城市固定资产投资总额(亿元)

X4:

城市社会消费品零售总额(亿元)

X5:

货物进出口总额(亿元)

从区域发展角度从上面5个经济指标将城市经济发展水平划分为三大类:

G1:

发达城市

G2:

中度发达城市

G3:

欠发达城市

3.2数据收集和整理

本文所有数据来源于《中国统计年鉴(2012)》,选取2011年度36个城市主要经济发展水平做模型建立及分析。

其中前32个城市相关经济指标水平作为初始样本用于划分类别,建立类别总体G;

最后四个城市(杭州、南宁、昆明、银川)及其相关经济发展水平用作待判样品,利用判别函数进行判别分析。

所有相关数据经过量纲统一规则化处理见表1所示。

表1我国部分城市相关经济发展水平(2011年)

序号

城市

第二产业(亿元)

第三产业(亿元)

固定资产投资总额(亿元)

社会消费品零售总额(亿元)

1

北京

3752.5

12363.2

5851.5201

6900.3246

23374.9884

2

天津

5928.3

5219.2

7483.6973

3395.06

6203.4642

3

石家庄

2031.9

1635.8

3026.9778

1662.9864

850.1112

4

太原

949.2

1097.1

1024.1444

973.2937

513.6306

5

呼和浩特

790.0

1277.8

1031.6781

890.0478

121.4736

6

沈阳

3026.9

2609.8

4577.094

2426.8655

637.215

7

大连

3204.2

2550.7

4580.0585

1924.794

3630.5874

8

长春

2092.7

1620.2

2356.6189

1515.8537

1040.9322

9

哈尔滨

1647.2

2147.8

3011.971

2070.4129

307.0548

10

上海

7927.9

11142.9

5064.2624

6814.8

26246.151

11

南京

2760.8

3220.4

3757.2517

2697.0997

3440.6358

12

宁波

3349.5

2454.5

2385.5072

2018.8617

5891.2092

13

合肥

2002.2

1426.2

3376.9652

1111.1188

1207.719

14

福州

1711.2

1700.1

2720.2827

1947.8102

2083.4856

15

厦门

1297.1

1217.5

1128.0872

800.2779

4210.0002

16

南昌

1579.3

974.7

2022.3297

928.3438

473.0226

17

济南

1829.0

2339.5

1934.3389

2114.2868

624.123

18

青岛

3150.7

3158.5

3502.5382

2302.3703

4329.1302

19

郑州

2874.2

1974.0

3002.5

1987.1147

959.7354

20

武汉

3254.0

3309.5

4255.1621

3031.7885

1367.3748

21

长沙

3151.7

2224.3

3510.2425

2201.6112

449.3604

22

广州

4577.0

7641.9

3412.2

5243

6970.26

23

深圳

5343.3

6155.7

2136.3882

3520.8736

24845.982

24

海口

177.9

487.7

395.0408

387.1804

236.1756

25

重庆

5543.0

3623.8

7579.4454

3487.807

1753.0716

26

成都

3143.8

3383.4

4944.0157

2861.2835

2274.3798

27

贵阳

586.8

733.7

1600.5898

584.3292

392.9796

28

拉萨

75.2

137.2

220.5031

102.5948

78.4452

29

西安

1697.2

1993.9

3352.12

1965.9774

754.74

30

兰州

656.5

663.5

950.5758

639.7231

112.7658

31

西宁

411.3

332.0

528.0052

271.2873

48.9378

32

乌鲁木齐

759.1

908.9

427.6221

695.0278

541.7904

33

杭州

3323.8

3458.5

3100.0218

2548.3599

3838.308

34

南宁

829.6

1076.3

1950.8628

1073.1541

150.6252

35

昆明

1161.2

1214.6

2275.5286

1271.7298

721.3224

36

银川

525.2

414.4

720.5627

274.4705

72.6

4,数据结果及分析

4.1聚类分析

4.1.1聚类分析过程

采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:

(1)K-均值聚类初始聚类中心

初始聚类中心

聚类

7928

5928

75

11143

5219

137

5064.262400000001

7483.697300000001

220.503100000000

6814.8000

3395.0600

26246.151********0

6203.464200000000

78.445200000000

(2)样本聚类

聚类成员

案例号

距离

北京

3937.772

济南

1347.154

天津

4379.850

青岛

1710.043

石家庄

1259.026

郑州

1969.261

太原

1214.063

武汉

2771.834

呼和浩特

1414.697

长沙

2607.583

沈阳

3452.674

广州

5518.235

大连

1842.873

深圳

4887.376

长春

837.811

海口

2474.750

哈尔滨

1584.291

重庆

4072.601

上海

3214.673

成都

1942.910

南京

1681.205

贵阳

1402.620

宁波

3455.979

2918.190

合肥

1536.881

西安

1652.625

福州

1682.563

兰州

1767.334

厦门

3577.169

西宁

2433.503

南昌

617.367

乌鲁木齐

1898.368

(3)最终聚类中心

最终聚类中心

5675

3879

1467

9887

3840

1375

4350.723566666668

4655.541788888890

2009.884360000000

5745.3327

2995.7850

1263.8072

24822.373800000000

3984.457000000000

782.184********0

最终聚类中心间的距离

21946.797

26337.272

5669.843

(4)聚类方差分析

方差分析

误差

F

Sig.

均方

df

34313207.735

1231856.479

27.855

.000

100446019.013

1811059.407

55.463

24862358.673

2205819.376

11.271

30454986.050

887338.531

34.322

753836973.383

1848036.992

407.912

F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。

观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。

4.1.2聚类结果分析

从上述聚类分析过程可知,样本完全有效,32个个体被分成三大类:

G1(发达城市):

北京,上海,深圳。

G2(中度发达城市):

天津,大连,南京,宁波,青岛,武汉,广州,重庆,程度。

G3(欠发达城市):

石家庄,太原,呼和浩特,沈阳,长春,哈尔滨,合肥,福州,厦门,南昌,济南,郑州,长沙,海口,贵阳,拉萨,西安,兰州,西宁,乌鲁木齐。

从城市分类结果可知,北上深作为国际化城市发展代表,其经济发展水平远超其他沿海城市及内陆城市;

沿海开放城市以及内陆主要枢纽城市的发展水平高于其他城市;

中部地区级西部城市发展水平受限于地理、资源和资本等因素,经济发展表现不强劲。

从最后的方差分析中可知,分类检验水平显著,分类结果值得借鉴。

4.2判别分析

4.2.1判别结果及分析

一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;

因变量(dependentvariable):

分组变量——定性数据(个体、产品/品牌、特征,定类变量)。

自变量(independentvariable):

判别变量——定量数据(属性的评价得分,数量型变量)。

(1)判别图

图1典则判别函数

从图中很明显,看到三个组中心也就是经济发展水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以接受的。

(2)典型判别式函数摘要

特征值

函数

方差的%

累积%

正则相关性

37.790a

98.0

.987

.765a

2.0

100.0

.658

a.分析中使用了前2个典型判别式函数。

Wilks的Lambda

函数检验

卡方

1到2

.015

114.106

.567

15.336

.004

标准化的典型判别式函数系数

-.974

.940

-1.198

.773

.752

.211

1.190

-.675

1.409

-.314

结构矩阵

.863*

.090

.184

.920*

.076

.857*

.231

.675*

.308

.567*

判别变量和标准化典型判别式函数之间的汇聚组间相关性

按函数内相关性的绝对大小排序的变量。

*.每个变量和任意判别式函数间最大的绝对相关性

从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的98%,第二判别函数解释了2%;

两个判别函数解释了100%;

当然,两个判别函数直接具有显著的差异和判别力。

(3)分类统计量

组的先验概率

类别

先验

用于分析的案例

未加权的

已加权的

.333

3.000

9.000

20.000

合计

1.000

32.000

分类函数系数

-.019

-.001

-.021

-.004

-.003

.011

.002

.001

.030

.006

.022

.003

(常量)

-231.519

-12.269

-2.727

Fisher的线性判别式函数

Fisher线性判别函数,我们主要用来构建判别方程,理论上说:

如果我们知道某个城市在5经济指标的发展水平值,我们就可以估计出该城市应该是哪种类型的。

4.2.2判别检验

判别变量是数量型测量尺度变量,分析样本个数至少比判别变量多两个,我们为了得到判别函数,经常需要把样本随机分成训练样本和检验样本等工作,如本文最后四个(序号33-36)个体就可作为检验样本,也成待判样本。

由上表可知Fisher判别方程:

判别规则:

判别结果:

杭州

1583.391

南宁

842.774

昆明

401.567

银川

2095.787

直观上,杭州作为沿海省会城市,虽然达不到北上深的经济发展地位,但其良好的地理位置以及投资开发环境,使得其经济发展水平非常迅速,归类到第二类经济发展城市是可以理解与接收的。

其余三个城市虽然都是省会城市,但都属于西部城市,地理位置以及资源物产相对欠缺,得力于国家西部大开发政策影响,经济发展方面距第三类城市相近。

5,结论

从本文所建立的模型对我国部分主要城市经济发展水平进行了聚类分析与判别分析,并运用模型判断最后四个城市,验证模型的有效性。

从相关结果及分析可以得到一些直观的结论。

北京作为我国首都,毋庸置疑具有天然的发展优势,其政治中心,交通中心,文化中心的地位吸引了国内外大量的投资建设,一批高科技产业带动的行业发展极大的推动了北京的经济发展;

上海作为中国的经济金融中心,加之其周边江浙地带发达的工业基础,都为上海的经济发展增加了强劲的力量;

深圳的发展是中国改革开放以来经济发展的典范,开放的力量使得这个沿海城市一举成为中国发达城市的先驱。

判别图里清晰的表明北上广的发展远远超过二三类型的城市发展水平。

沿海主要城市以及内陆枢纽城市的发展得益于丰富的资源以及便利交通带来的大量投资,或者传统的工业基础,这些因素都使得这一类的城市发展迅速,势头强劲。

其余中西部城市的发展各有其优劣,但总体上西部城市受国家西部大开发政策影响,变现出新兴的发展势头。

判别图分析可见二三类型经济发展水平相差不大。

由此,所建立模型直观上符合我国部分主要城市经济发展水平类型,最后的四个城市判别再次说明了模型的有效性。

参考文献

[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:

北京航空航天大学数学系,2011.

[

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2