聚类分析Word文件下载.docx

资源描述

聚类分析Word文件下载.docx

《聚类分析Word文件下载.docx》由会员分享，可在线阅读，更多相关《聚类分析Word文件下载.docx（20页珍藏版）》请在冰点文库上搜索。

聚类分析Word文件下载.docx

为了将样品（或指标）进行分类，就需要研究样品之间关系。

目前用得最多的方法有两个：

一种方法是相似系数；

另一种方法是距离。

聚类分析中可采用不同类型的统计量，通常Q型聚类采用距离统计量，R型聚类采用相似系数统计量。

（一）距离

设有n个样本，每个样本观测p个变量，数据结构为

，

其中，xij是第i个样本第j个指标的观测值。

因为每个样本点有p个变量，我们可以将每个样本点看作p维空间中的一个点，那么各样本点间的接近程度可以用距离来度量。

以dij为第i样本点与第j样本点间的距离长度，距离越短，表明两样本点间相似程度高。

最常见的距离指标有：

绝对距离：

欧氏距离：

切比雪夫距离：

马氏距离：

，其中

，S是样本数据矩阵相应的样本协方差矩阵，即S的元素

。

（二）相似系数

对于p维总体，由于它是由p个变量构成的，而且变量之间一般都存在内在联系，因此往往可用相似系数来度量各变量间的相似程度。

相似系数介于-1至1之间，绝对值越接近于1，表明变量间的相似程度越高。

常见的相似系数有：

夹角余弦：

相关系数：

1.4基本思想

聚类分析是建立一种分类方法将一批样本或变量按照它们在性质上的相似、疏远程度进行科学分类的方法。

聚类分析可以分为Q型聚类和R型聚类两种，Q型聚类是指对样本进行分类，R型聚类是指对变量进行分类。

其基本思想是认为研究的样本或变量之间存在着程度不同的相似性，根据一批样本的多个观测指标，具体找出一些能够度量样本或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样本（或变量）聚合为一类，把另外一些彼此之间相似程度较大的样本（变量）也聚合为一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样本（或变量）都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统；

最后再把整个分类系统画成一张图，将亲疏关系表示出来。

简单的说即：

物以类聚。

相近的聚为一类（以距离表示，样品聚类）；

相似的聚为一类（以相似系数表示，变量聚类）。

1.5系统聚类法

系统聚类分析是聚类分析中应用最广泛的一种方法，凡是具有数值特征的变量和样本都可以采用系统聚类法。

选择适当的距离和聚类方法，可以获得满意的聚类结果。

（一）分类的形成

先将所有的样本各自算作一类，将最近的两个样本点首先聚类，再将这个类和其他类中最靠近的结合，这样继续合并，直到所有的样本合并为一类为止。

若在聚类过程中，距离的最小值不唯一，则将相关的类同时进行合并。

（二）类与类间的距离

系统聚类方法的不同取决于类与类间距离的选择，由于类与类间距离的定义有许多种，例如定义类与类间距离为最近距离、最远距离或两类的重心之间的距离等，所以不同的选择就会产生不同的聚类方法。

常见的有：

最短距离法（singlelinkage）、最长距离法（completelinkage）、中间距离法（medianmethod）、可变距离法（flexiblemedian）、重心法（centroid）、类平均法（average）、可变类平均法（flexibleaverage）、Ward最小方差法（Ward’sminimumvariance）及离差平方和法等。

设两个类

，分别含有n1和n2个样本点，

最短距离法：

最长距离法：

重心法：

两类的重心分别为

，则

类平均法：

离差平方和法：

首先将所有的样本自成为一类，然后每次缩小一类，每缩小一类离差平方和就要增大，选择使整个类内离差平方和增加最小的两类合并，直到所有的样本归为一类为止。

2聚类分析一般步骤概述

2.1数据预处理　　

①选择数量，类型和特征的标度，它依靠特征选择和特征抽取，前者选择重要的特征，后者把输入的特征转化为一个新的显著特征，它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类；

②将孤立点移出数据，孤立点是不依附于一般数据行为或模型的数据，常会导致有偏差的聚类结果。

2.2为衡量数据点间的相似度定义一个距离函数

通常通过定义在特征空间的距离度量来评估不同对象的相异性，特征类型和特征标度的多样性决定了距离度量必须谨慎且经常依赖于应用，如Euclidean距离，经常被用作反映不同数据间的相异性，PMC和SMC能够被用来特征化不同数据的概念相似性，子图图像的误差更正能够被用来衡量两个图形的相似性。

2.3聚类或分组

划分方法和层次方法是聚类分析的两个主要方法，划分方法聚类是基于某个标准产生一个嵌套的划分系列，它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类，一般从初始划分和最优化一个聚类标准开始。

CrispClustering（它的每一个数据都属于单独的类）和FuzzyClusterin（它的每个数据可能在任何一个类中）是划分方法的两个主要技术，其他的聚类方法还包括基于密度的聚类，基于模型的聚类，基于网格的聚类。

2.4评估输出

聚类作为一个无管理程序，其结果的评价没有客观的标准，要借助于一个类有效索引，一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值，这个索引能否真实的得出类的数目是判断该索引是否有效的标准，但是对于交叠类的集合等复杂的数据集，却通常行不通，。

3应用实例

3.1聚类分析SPSS操作

在相关统计分析软件中的操作——以SPSS为例

聚类分析所用的方法大致可被分为2类：

系统聚类法（HierarchicalClustering）和非系统聚类法（Non-hierarchicalClustering）。

在SPSS中通过Analyze→Classify进入聚类分析，主要两种方法K-meansCluster和HierarchicalCluster。

SPSS为这两种方法各提供了一个过程，K-meansCluster过程使用的就是非系统聚类法中最常用的Ｋ-均值聚类法（K-meansClustering）。

该方法也被称为快速聚类法或逐步聚类法。

分层聚类（HierarchicalCluster），也称系统聚类，该聚类反映事物的特点的变量很多，我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。

快速样本聚类是根据被观测的对象的各种特征，即反映被观测对象的特征的各变量进行分类。

当要聚成的类数已知时，使用快速聚类过程可以很快将观测量分到各类中去，其特点是处理速度快，占用计算机内存少。

快速样本聚类适用于大样本的聚类分析。

在SPSS中点击Analyze→Classify→K-meansCluster进入快速聚类分析对话框。

在SPSS中点击Analyze→Classify→HierarchicalCluster，进入HierarchicalClusteranalysis对话框。

3.2聚类分析Excel操作

为了研究2006年我国部分地区工业企业经济效益的分布规律，根据调查资料做类型划分。

标准化后的数据见下表：

地区

工业增加值率（%）ZX1

总资产贡献率（%）ZX2

资产负债率（%）ZX3

流动资产周转次数ZX4

成本费用利润率（%）ZX5

产品销售率（%）ZX6

北京

-1.42

-1.31

-3.23

-0.51

-0.43

0.99

天津

-0.59

0.35

-0.02

0.54

-0.06

1.02

河北

-0.57

0.30

0.53

1.31

-0.26

0.31

山西

0.44

-0.48

1.64

-1.03

-0.37

-0.07

内蒙古

-0.09

0.19

0.06

0.05

辽宁

-0.93

0.03

-0.84

0.38

吉林

-0.16

-0.67

-0.54

0.13

-0.61

-1.28

黑龙江

1.87

3.59

-0.55

0.34

2.94

上海

-0.94

-0.47

-1.30

-0.20

-0.45

0.88

江苏

-1.09

0.45

0.83

-0.62

浙江

-1.66

-0.36

0.41

-0.10

0.02

安徽

0.80

0.23

-0.66

福建

0.01

-0.70

0.42

-0.56

江西

0.52

1.00

-0.60

0.48

【解】

1.首先认为每个样本点自成一类，采用欧氏距离，先求出各类间的距离矩阵D（0）如下：

Case

0.000

3.872

4.610

1.201

5.410

2.873

2.914

4.969

2.277

2.261

1.957

3.434

1.710

1.964

2.361

2.307

3.851

2.694

2.509

2.831

2.421

1.797

7.369

5.110

5.401

6.050

4.855

6.382

6.180

2.184

1.776

2.592

3.485

3.108

1.538

2.455

6.070

4.098

1.217

0.999

2.773

2.626

1.329

2.404

6.124

2.084

3.917

1.877

1.954

2.619

3.069

1.445

2.234

6.473

2.055

1.209

4.420

1.570

1.475

1.705

1.729

1.075

2.114

5.960

2.354

1.197

1.623

3.474

1.785

1.778

3.027

2.412

1.596

1.162

5.580

1.779

1.745

1.768

1.903

4.407

1.130

0.622

2.566

2.018

1.486

2.333

5.667

2.340

0.792

1.800

0.973

1.739

2.因为所有距离中最小值为0.622，所以有新类G1={3,14}；

3.以最大距离法求第一次并类后的距离矩阵D

（1）为：

4.因为D

（1）中最小距离值为0.999，所以有新类G2={G1,10}；

5.仍以最大距离法求第二次并类后的距离矩阵D

（2）为：

6.因为D

（2）中最小距离值为1.075，所以有新类G3={6,12}={6，12}；

7.求第三次并类后的距离矩阵D（3）为：

0.000

8．因为D（3）中距离最小值为1.162，所以有新类G4={7,13}，并求第四次并类后的距离矩阵D（4）为：

展开阅读全文