聚类分析论文.docx

资源描述

聚类分析论文.docx

《聚类分析论文.docx》由会员分享，可在线阅读，更多相关《聚类分析论文.docx（18页珍藏版）》请在冰点文库上搜索。

聚类分析论文.docx

聚类分析论文

聚类分析及其在新疆经济研究中的应用

孙鹿梅

1（伊犁师范学院数学与统计学院新疆伊宁835000）

[摘要：

本文论述聚类分析的基础理论和研究方法，包括系统聚类法和K-均值法，并

以新疆十四个地州市2009的地区生产总值、人均地区生产总值等十项综合经济指标为样

丨本，利用SPSS软件，对他们的综合发展水平进行类型划分及差异性程度分析•

1关键词：

聚类分析；SPSS软件；综合经济指标；新疆经济区划分

装一、引言

1聚类（clustering）是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的

1组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程•它的目

1的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似•聚类

订技术正在蓬勃发展，涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物

1学以及经济学等各个领域，聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课

1题.聚类分析可用于对某省各地区经济发展划分为各个经济区、也可用于市场细分、目标

线客户定位、业绩评估等多方面•

1在社会经济研究中，经常需要对所研究的区域进行经济区划分，以便进行分类指导•

1如何进行经济区划分呢？

利用世界著名统计软件SPSS（StatisticalProgramforSocial

1Science）的聚类分析功能，效果比较理想.聚类分析包含的内容很广泛，可以有系统聚类

1法、动态聚类法、分裂法、最优分割法、模糊聚类法、图论聚类法、聚类预报等多种方法，

1其中应用最为广泛的是系统聚类法和K-均值法•

1由于西部发开发战略的实施和援疆工作的展开，新疆经济的发展迅速，但由于新疆地

1广，各地区之间的经济差异很大，要让新疆经济均衡发展，就要对新疆各地区的不同实施

1不同的经济政策.我分别用了SPSS的聚类分析中的系统聚类法和K-均值法对新疆各地区

的进行经济区划分，以对新疆各地区实施不同的经济政策做依据•

—、基础知识

2.1聚类分析的基本思想

由于所研究的样品或变量之间存在着程度不同的相似性，故根据一批样品的多个观测变量，找出能够度量样品或变量之间相似程度的统计量，并以此为根据，采用某种聚类法，将所有的样品或变量分别聚合到不同的类中，使同一类中的个体有较大的相似性，不同类中的个体差异较大.

2.2聚类分析的种类

聚类分析的目的是将所研究对象进行分类.它是在事先不知道类别的情况下对数据进行

分类的分析方法.聚类分析不仅可以对样品进行分类，也可以用来对变量进行分类.对样品的

分类常称为Q型聚类分析，对变量的分类常称为R型聚类分析.

2.3聚类分析的原理

聚类分析是研究多要素事物分类问题的数量方法.基本原理是根据样本自身的属性，用数学方法按照某种相似性或差异性指标，定量地确定样本之间的亲疏关系，并按这种亲疏关系程度对样本进行聚类.

常见的聚类分析方法有系统聚类法、K-均值法和模糊聚类法等.

2.3.1聚类要素的数据处理

假设有m个聚类的对象，每一个聚类对象都有多个要素构成.一般都有不同的量纲，不同的数量级单位，不同的取值范围，为了使不同量纲，不同取值范围的数据能够放在一起比较，通常需要对数据进行变换处理.

在聚类分析中，常用的聚类要素的数据处理方法有如下几种

1总和标准化

'Xj

xjm（i=1,2,,m,j=1,2,n）

送Xj

且'Xij=1（j=1,2,n）.

i±

标准差标准化

—Z（Xj-Xj）2

mi4

变换后的数据，每个变量的样本均值为0,极差为1,且X*<1，在以后的分析计算

中可以减少误差的产生；同时变换后的数据也是无量纲的量

极大值标准化

经过这种标准化所得的新数据，各要素的极大值为1,其余各数值小于1.

4极差的标准化

Xjmin、Xj匚

XijiT,2,m,jT,2,,n

max%fm.in%/

经过这种标准化所得的新数据，各要素的极大值为1,极小值为0,其余的数值均在0与

1之间•

2.3.2样品间的距离和相似系数

（1）距离的计算

描述样品间的亲疏程度最常用的是距离，设观测数据XXj（i=1,2,…，n;j=1,…，m）列成

下列X矩阵的形式.

设有n个样品，每个样品测得p个变量，原始资料阵为

X11

X12…X1p|

X21

X22X2p

■

Xn1

Xn2Xnp

其中Xj为i个样品的第j个变量的观测数据•

用dij表示第i个样品的第j个样品之间的距离，其值越小表示两个样品接近程度越大距离的一般要求：

1dj-0,对一切i,j；当dj=0=X（j）=X（j）;

2dj=dji,对一切i,j;

3dj

常用的距离有以下几种:

1）闵氏距离

q）1q

dj（q）=（'Xik-Xjk

kA.

其中常用的距离有绝对距离和欧氏距离

绝对距离

（1）=（瓦|Xik—Xjk

欧氏距离

P21dj

（2）=LXi「Xjk）'k4

欧氏距离是常用的距离，但它也有不足之处，一是它没有考虑到总体的变异对“距离”远近的影响，显然一个变异程度大的总体可能与更多样品近些，即使它们的欧氏距离不一定最近；另外，欧氏距离受变量的量纲影响，这对多元数据的处理是不利的•通常我们需要先对

数据近些标准化处理，然后用标准化后的数据计算距离.

2）马氏距离

设Xi与Xj是来自均值向量为」，协方差为0的总体G中的p维样品，则两个样品间的马氏距离为

di2（M）洛-Xj），、'（Xi-Xj）

马氏距离又称为广义欧几里得距离，显然马氏距离与上述各种距离的主要不同就是考虑到了观测变量之间的相关性•如果各变量之间相互独立，即观测变量的协方差矩阵是对角矩阵，对马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧几里得距离.马氏

距离还考虑了观测变量之间的变异性，不再受各指标变量的影响，将原始数据作线性变换后，马氏距离不变•

选择不同的距离，聚类结果会有所差异•在地理分区和分类研究中，往往采用几种距离进行计算、对比，选择一种较为合适的距离进行聚类•

（2）相似系数

在对多元数据进行分析时，相对于数据的大小，我们更好地对变量的变化趋势或方向感兴趣•因此，变量间的相似性，我们可以从它们的方向趋同性或“相关性”进行考察，我们用相似系数用来测量变量之间的距离，常用的相似系数有以下两种：

1）夹角余角

变量Xi与Xj是来自均值向量为,协方差为Vx0的总体G在的p维空间的两个

向量，则这两个向量间的夹角余弦可表示为

COS^j

CXik）cxjk）

2）相关系数

相关系数经常用来试题变量间的相似性.变量Xi与Xj的相关系数定义为

'（Xik—■XJ（Xjk—'Xj）

rij

CP22

'（Xik-Xi）（Xjk-Xj）km

在实际问题中，对样品分类常用距离，对变量分类常用相似系数，即Q型聚类分析常

用距离，R型聚类分析常用相似系数•

2.4聚类分析方法

系统聚类法

开始将样品或变量各视为一类，根据类与类之间的距离或相似程度将最近的类加以合并，再计算新类与其他类之间的相似程度，并选择最相似的加以合并，这样每合并一次就减少一类，不断继续这一过程，直至所有样品（或变量）合并为一类

系统聚类分析方法方法包括最短距离法、最长聚类法、类平均法、重心法、ward法等八

种不同的方法.

K-均值

将给定的样本划分为K类，K预先指定，基于使聚类性能指标最小化，所用的聚类准则函数是聚类集中每一个样本点到该类中心的距离平方之和，并使其最小化.

比较两种算法，系统聚类是事先并不知道分为几类，根据算法可以直接数据实际情况

得出来，K-均值聚类法虽然比较方便迅速，但必须事先定好分类数•两种算法各有优缺点,所以用哪种算法，还要考虑到实际情况•

各算法的具体过程在下列实例中有介绍，此处就不做介绍了•

三、实例

例表12009年给出能反映新疆十四个地州市综合经济的十项指标分别为：

X1地区生产总值（亿元），X2人均地区生产总值（元），X3第二产业比重（%，X4第三产业比重（%，X5人口（万人），X6固定资产投资（亿元），X7规模以上工业总产值（亿元），X8地方财政一般预算收入（万元），X9地方财政一般财政支出（万元），X10在岗职工平均货币支出（元）•

利用数据对新疆十四个地州市进行综合发展水平进行类型划分及差异性程度分析

表1

地区

X10

乌鲁木齐市

1087.5

38249

42.9

55.6

241

598.03

1374

820086

1004807

37161

克拉玛依市

480.29

87000

86.7

12.6

28:

186.61

881.1

P332763

427153

36248

吐鲁番地区

154.58

25741

62.5

24.4

80.47

141.7

122410

259159

32911

哈密地区

130.32

23055

39.4

45.1

50:

95.65

104464

「293562

30427

昌吉州

444.71

28520

39.4

30.8

116

205.08

290.6

556297

938246

26924

伊犁直属县市

333.66

12951

34.4

41.4

149

193.29

165.6

239022

976021

22727

塔城地区

284.82

20784

34.1

29.6

124.37

116.8

136875

489470

19615

阿勒泰地区

117.39

L19903

40.5

35.9

77.93

117958

527425

20587

博州

100.96

21130

18.4

51.5

38「

47.27

P48570

「249022

20421

巴州

525.94

39467

63.9

20.1

100

252.85

437

265996

665735

27715

阿克苏地区

320.45

P13098

28.4

37.4

146

234.03：

176.1

296064

864291

24327

克州

32.46

6183

19.6

57.6

27.4

6.1

22619

338557

26946

喀什地区

284.24

7085

17.2

42.2

140

219.37

48.4

147358

1427919

25713

和田地区

88.58

4583

16.3

47.8

76.1

10.7

44990

752167

26445

以2010年新疆统计局出版的《新疆统计年鉴》（2009年度的数据）为数据来源，运用上述10项指标（表1）借助于统计分析软件包SPSS17.0进行聚类分析计算•

3.1系统聚类算法对数据进行聚类分析

方法选取上，分别用组间联接、最短距离法和和离差平方和（ward）法得出分析结果的聚

类图.组间联接法得到的结果和ward方法一致，但，就类和类的之间区别程度而言，组间法的效果没有ward法的好.最短距离法的结果跟ward的不一致，且，就类和类的之间区别程度而言，其效果远差于ward法和质心法.我们也尝试了使用类平均法、最长距离法及中间距离法.他们的聚类图结果类似于ward法，这里为了简洁起见就没有呈现.

计算过程如下：

1用标准差标准化方法对10项指标的原始数据进行处理•

2采用欧氏距离测度个15个地州市之间的样本间距离.

3选用组ward法计算类间的距离，并对样本进行归类.

经过上述聚类方法，由分析-描述统计-描述，进行数据的标准化，得到下列标准化后

的数据.

表2

地区

X10

乌鲁木齐市

2.94

0.63

0.16

1.34

2.54

3.07

2.92

2.76

1.05

1.9

克拉玛依市

0.68

3.03

2.36

-1.98

-1

0.15

1.62

0.5

-0.54

1.73

吐鲁番地区

-0.54

0.01

1.15

-1.07

-0.73

-0.61

-0.32

-0.47

-1

1.11

哈密地区

-0.63

-0.12

-0.01

0.53

-0.63

-0.5

-0.55

-0.91

0.64

昌吉州

0.54

0.15

-0.01:

-0.58

0.46

0.28

0.07

1.54

0.86

-0.01

伊犁直属县市

0.13

-0.62

-0.26

0.24

1.01

0.19

-0.26

0.07

0.97

-0.79

塔城地区

-0.06

-0.23

-0.28

-0.67

-0.21

-0.3

-0.39

-0.4

-0.37

-1.37

阿勒泰地区

-0.68

-0.27

0.04

-0.18

-0.86

-0.63

-0.56

-0.49

-0.26

-1.19

博州:

-0.74

-0.21

-1.07

1.02

-0.83

-0.84

-0.63

：

-0.81

-1.03

-1.22

巴州

0.85

0.69

1.22

-1.4

0.19

0.62

0.46

0.2

0.12

0.14

阿克苏地区「

0.08

-0.61

-0.56

-0.07

0.96

0.48

-0.23

0.33

0.66

-0.49

克州1

-1

-0.95

-1.01

1.49

-0.95

-0.98

-0.68

-0.93

-0.78

-0.01

喀什地区:

-0.06

-0.91

-1.13:

0.3

0.86

0.38

-0.57

-0.35

2.21

-0.24

和田地区

-0.79

-1.03

-1.17J

0.73

-0.41

-0.64

-0.67

-0.83

0.35

-0.1

装

表2表示为标准化的数据，由于我我所选的是反映新疆经济综合指标，这些变量在数量级和计量单位上的差别，要让这些不同单位的变量具有可比性.这是就必须采用某种方法对各变量数值进行标准化处理，或者叫无量纲处理，解决各数值不具综合性的问题.

SPSS提供了很方便的数据标准化方法，这里我用的是z标准化方法.即每一变量与其平均值之差除以该变量的标准差.无量纲化后各变量的平均值为0,标准差为1,从而消除量纲和数量级的影响.

分析表中的数据，数据大于0的表示高于平均值，小于0的表示低于平均值.我们看从X1地区生产总值，高于平均地区有乌鲁木齐市、克拉玛依市、昌吉州、伊犁直属县市、巴州、阿克苏地区，低于平均值的地区有吐鲁番地区、哈密地区、塔城地区、阿勒泰地区、博州、克州、喀什地区、和田地区.依次再看X2地区人均生产总值，高于平均值的地区乌鲁木齐市、克拉玛依市、哈密地区、昌吉州、巴州.低于平均值的地区吐鲁番地区、伊犁

直属县市、塔城地区、阿勒泰地区、博州、阿克苏地区、克州、喀什地区、和田地区.依

次再看其他变量指标，哪些地区高于平均值，哪些地区低于平均值

经过上述聚类方法，由分析-分类-系统聚类，得出聚类表

表3

聚类表

阶

群集组合

系数

首次出现阶群集

下一阶

群集1

群集2

群集1

群集2

.022

.072

.173

.331

.504

.693

.900

1.363

2.014

2.697

4.478

6.601

10.404

通过表3,我们可以看出聚类的过程，第一步看出6,11距离最近首先分为一类•也就是伊犁直属县市和阿克苏地区首先分为一类，下一阶表示下次要用到这一类是在第六步时，把6，11和13合并为一类，即把伊犁，阿克苏地区和喀什地区分为一类，第二步看出7,8分

为一类，也就是塔城地区和阿勒泰地区分为一类，下一阶再把塔城地区、阿勒泰地区和博州分为一类.以此类推直至把所有的合并为一类•

由于一共有十四个地区，所以至少要用十三步才能把它们都归于一类•也可以通过此表看

出系统聚类的基本思想：

开始将样品或变量各视为一类，根据类与类之间的距离或相似程度将最近的类加以合并，再计算新类与其他类之间的相似程度，并选择最相似的加以合并，这样每合并一次就减少一类，不断继续这一过程，直至所有样品（或变量）合并为一类•

fflf集«

装订

图1为系统聚类分析得出的冰状图，从此图我们可以直观的看出，左边框的数字代表的是分类数，从下到上我们可以看出，先是将各地区各为一类到14类再到12类再到10

类，依次下去，一直到所有地区合为一类•上边框上代表的是分类的各地区•

根据新疆实际情况我们把这十五个地州市分为五类•

第一类为强经济经济区｛乌鲁木齐市｝;第二类为较强经济区｛克拉玛依市｝;第三类为一般经济区｛昌吉州、巴州、伊犁直属县市、喀什地区、阿克苏地区｝;第四类为较弱经济地区｛哈密地区、吐鲁番地区｝;第五类为弱经济地区｛塔城地区、阿勒泰地区、博州、和田地区、克州｝.

3.2K-均值算法对数据进行聚类分析

K-均值是一种基于划分的聚类算法，因为它有理论上可靠、算法简单、速度快等

优点而被广泛使用•K-均值算法是一个迭代计算“质心”并根据样本和质心的距离把各

样本指派到各个簇的过程•

主要具体步骤如下：

1确定初始质心生成K个质心，K由用户指定.

2指派样本计算每一个样本到各个质心的距离，把样本指派给距离最小的簇

3更新质心根据每个簇当前所拥有的所有样本，重新计算每个簇的质心

4检查是否满足停止条件.

表4

最终聚类中心间的距离

聚类

7.564

7.463

8.577

6.521

7.564

4.275

6.584

6.240

7.463

4.275

2.652

2.987

8.577

6.584

2.652

2.859

6.521

6.240

2.987

2.859

7.564，

通过表4,我们可以看出最终聚类中心间的的距离，第一类与第二类之间的距离为

第一类和第三类之间的距离为7.463，依次可以看出各类之间的距离.

聚类成员

案例号

地区

聚类

距离

乌鲁木齐市

.000

克拉玛依市

.000

吐鲁番地区

.000

哈密地区

2.052

昌吉州

3.085

伊犁直属县市

1.747

塔城地区

2.307

阿勒泰地区

1.853

博州

.000

巴州

2.844

阿克苏地区

1.906

克州

1.558

喀什地区

.000

和田地区

2.038

根据表5可以看出第一类｛乌鲁木齐｝;第二类｛克拉玛依市｝;第三类｛巴州、哈密地区、吐鲁番地区｝;第四类｛和田地区、克州、博州、塔城地区、阿勒泰地区｝;第五类｛伊犁直属县市、阿克苏地区、昌吉州｝.

丨对所得结果进行差异性分析：

|乌鲁木齐作为新疆的政治、经济的中心，在经济上的发展上都高于其他各地州市，克

；拉玛依市由于其石油资源优势和大型央企的进入，使其也获得了较好的发展机遇，具有较

丨强的经济竞争优势.由于政府政策，如进一步加强喀什霍尔果斯两大经济开发区、南

[疆三地州片区扶贫规划以及其它重点区域战略发展规划的编制和落实执行，积

I极贯彻落实已出台的区域规划和政策文件，充分发挥重点地区对区域经济的辐

丨射带动作用，培育新的经济增长极.加快制定天山北坡经济带和南坡产业带的发

I展战略，积极完善扶持南疆三地州、高寒沿边地区加快发展的政策措施，强化装

【的自我发展能力.所以伊犁州，喀什地区，以及阿克苏地区的经济也发展迅速，

：

昌吉州由于受乌鲁木齐经济的带动经济.它们几个地区经济水平都在迅速发展•

1博州由于人口少，自然资源也少，南疆的克州和和田地区则由于地理原因和经订济社会相对落后的发展状态，呈现出较低水平.所以SPSS分类结果较为合理•

I参考文献

1[1]高惠璇.应用多元统计分析[M].北京：

大学出版社,2005.

I[2]郝黎仁.SPSS实用统计分析[M].北京：

中国水利水电出版社,2002.线

I[3]李双杰,顾六宝.用聚类分析法评估区域经济[J].中国农村观察,2001（3）,52-56.

I[4]李世伟，丁胜.聚类分析在经济学当中的一个应用[J].商场现代化,2009（3）,23-25.

[5]卢文岱.SPSSforwindows统计分析[M].北京：

电子工业出版社,2002.

I[6]罗积玉,邢瑛.经济统计分析方法及预测[M].北京:

清华大学出版社，1987.

[7]RichardA.Johnson，DeanW.Wichern.实用多元统计分析（第四版）[M].北京：

清华

I大学出版社,2001.

I[8]苏金明.统计软件SPSS系列应用实战篇[M].北京：

电子工业出社，2002.

[9]吴明隆.SPSS统计应用实务[M].北京：

科学出版社,2003.

[10]赵喜仓，吴梦云.江苏城市社会经济发展状况实证分析[J].统计研究,2003（3）,32-34.

[11]新疆维吾尔自治区统计局,新疆统计年鉴[M],北京：

中国统计出版社，2010.

ClusteringAnalysisand

展开阅读全文