第四讲聚类分析Word文件下载.docx

资源描述

第四讲聚类分析Word文件下载.docx

《第四讲聚类分析Word文件下载.docx》由会员分享，可在线阅读，更多相关《第四讲聚类分析Word文件下载.docx（13页珍藏版）》请在冰点文库上搜索。

第四讲聚类分析Word文件下载.docx

1．欧氏距离（EuclidianDistance）

2．欧氏距离平方（SquaredEuclidianDistance）

这是SPSS系统默认的距离。

3．闵可夫斯基距离（Minkowski）

其中参数q为用户选项。

4．切比雪夫距离（Chebyshev）

5．布洛克距离（Block）

6．自定义距离（Customized）

其中参数q、r为用户选项。

以上距离越小，表示个体

的性质越相近。

2．2相似系数

1．皮尔逊相似系数（Pearson）

其中的：

2．夹角余弦（Cosine）

相似系数值越大，表示观察对象性质越相近。

2．3类（group）与类之间的距离

类指观察值的集合。

两个类之间的距离，是用这两个类的特殊点之间的距离来定义。

设有两个类：

Ga和Gb，它们之间的距离用D（a,b）表示。

则有以下方法表示这两个类之间的距离：

1．最短法

2．最长法

3．重心法

称

为类Ga和Gb的重心，其中的na和nb分别是Ga和Gb中包含的观察值的个数。

这时

4．类平均法

5．离差平方和法

首先定义类Gs的直径如下：

记Ga的直径为Da，Gb的直径为Db，Ga+b=GaGb的直径为Da+b。

则：

第三节数据的中心化与标准化

在聚类的时候，由于表示聚类特征的变量往往具有不同的量纲，因此聚类前经常要将其数据标准化。

标准化后的数据是无量纲的。

SPSS系统默认无标准化。

以下假设变量X的观察值为：

X1,X2,…,Xn；

它的均值和标准差分别记为

和S。

3．1中心化

中心化以后的数据均值为0。

3．2正规化

易见，正规化以后的数据最小值为0。

3．3标准化

1．标准差标准化（z-score）

标准差标准化后的数据均值为0，标准差为1。

2．极差标准化

式中的R为观察值的极差。

极差标准化后的数据均值为0，极差为1。

3．极差正规化

变换后的数据最小值为0，极差为1。

第四节系统聚类法（HierarchicalClustering）

4．1系统聚类法的算法

1．取每个观察值为一个类；

2．将性质最近的两个类合并为一个类，类的数目减1；

3．如类的数目2，转2）；

4．结束聚类过程。

4．2系统聚类法举例

设有变量X的5个观察值：

1，2，4.5，6，8。

试用系统聚类法聚类。

观察值采用Euclidean距离，类间距离采用最短法。

第一步：

每个观察值作为一类，共分成5类如下：

G1={1}，G2={2}，G3={4.5}，G4={6}，G5={8}

计算它们的距离矩阵M1：

1＃

3.5

2.5

1.5

合并距离最小的两个类G1和G2，得G6=G1G2。

重新计算距离矩阵M2：

1.5#

合并距离最小的两个类G3和G4，得G7=G3G4。

矩阵M3：

合并G5和G7，得G8=G5G7。

矩阵M4：

2.5#

最后G6和G9合并成G9。

聚类过程结束。

4．3聚类谱系图（Dendrogram）略。

第五节系统聚类的不同方法介绍

系统聚类由于使用的类间距离不同，产生了不同的聚类方法。

主要方法有：

1．组间平均距离法（Between-GroupsLinkage）

使用类平均法计算类间距离。

这是SPSS系统默认的方法。

2．最短距离法（NearestNeighbor）

使用最短法计算类间距离。

3．最长距离法（FurthestNeighbor）

使用最长法计算类间距离。

4．重心法（CentroidClustering）

使用重心法计算类间距离。

5．离差平方和法（Ward’sMathod）

使用离差平方和法计算类间距离。

第六节系统聚类举例

例数据data06，将所列10个西部省市自治区按五项经济指标：

国内生产总值（gdp）、工业总产值（industry）、农林牧渔总产值（agri）、全社会固定资产投资（gdinvest）和全社会最终消费（consume）用系统聚类法分为三类，距离采用Euclidiandistance，数据作z-score标准化。

并从平均值角度说明这三类地区的区别。

在HierarchicalClusterAnalysis对话框中，将上述五个变量输入Variable（s），点击Statistics，在该对话框的Singlesolution中键入3，返回；

点击Save，在该对话框的Singlesolution中键入3，返回；

点击Method，在该对话框的Measure中Interval下拉菜单中选择EuclidianDistance，再在Transform之Standardize的下拉菜单中选择z-score。

返回。

OK，得：

这是一张聚类过程表，其中的Stage表示步骤，ClusterCombine表示被合并的类，例如第1步是把8号观察值与9号观察值合并，合并后的新类用Cluster1即8命名。

Coefficients则为被合并的两个类之间的距离或相似系数值。

StageClusterFirstAppears

则表示被合并的两个类是否原始类，如果是，则记为0；

如果不是，则记它上一次被合并的步骤号，例如Stage3由第5类与第8类合并为新8类，在StageClusterFirstAppears中Cluster1为0，表示第5类是原始类，Cluster2为1，表示第8类不是原始类，而是在Stage1中生成的新类。

最后的NextStage则表示这一步合并得的新类，下一次在哪一步出现，例如Stage3合并得的新类5，下一次将在Stage8出现。

这是聚类结果，由于操作时选择了Save，所以在数据文件中系统已经自动添加了一个结果变量Clu3_1，其中记录了分类结果。

如果到此为止，上述分类难有什么实际用途。

还必须表示这三个类的差异之处。

为此，运用Means，在对话框中，把5个聚类变量输入DependentList，把Clu3_1输入IndependentList，点击Options,在其对话框的CellStatistics中保留4个统计量：

Mean、NumberofCases、Minimum、Maximum。

返回，OK,得输出表格Report，读者试解释这三类地区都代表什么发展水平。

第七节R型聚类介绍

7．1R型聚类与代表性变量的选择

1．R型聚类即对变量聚类。

在变量较多且变量间的相关性较强时，可以用R型聚类法找出代表性变量，以减少变量个数，达到降维的目的。

2．代表性变量及其选择R型聚类把变量聚为几个类，同一类变量之间有较强的相关性，因此可以从中选择一个变量作为代表。

以下介绍代表性变量的选择方法：

假设变量X1,X2,X3,X4构成一个类，为选择代表性变量，首先计算变量Xi和Xj的相关系数：

rij，i≠j，i,j=1,2,3,4。

接着，对每个变量Xj按以下公式计算：

其中mj是Xj所在类的变量个数，此处mj=4。

选

最大者对应的变量为代表性变量。

7．2R型聚类举例

例数据data10，该数据文件列举我国30个省、市、自治区的11个经济发展指标值，这些指标具有较强的相关性。

试用R型聚类将这些指标分为3类，并对每一类变量找出代表性变量。

命令Classify\Hierarchical，打开HierarchicalClusterAnalysis对话框，将变量X1至X11全部输入Variable（s），在Cluster一栏中选择⊙Variables，打开Statistics，在Singlesolution中键入3；

返回，打开Method，在Measure中选择Pearsoncorrelation，并在Standardize中选择z-scores。

返回，OK。

输出文件关于变量分类结果为：

可见，变量分类如下：

第一类：

X1，X2，X3；

第二类：

X4，X5，X6，X7，X8，X10，X11；

第三类：

X9。

以第一类为例，求代表性变量。

首先计算变量X1，X2，X3之间的相关系数。

为此，选择命令Correlate\Bivariate。

得相关系数如下：

对于变量X1，有：

相应地，X2和X3有：

由于

的值最大，故取X2为第一组变量的代表性变量。

其他两类的代表性变量由读者作为练习求出。

第八节快速聚类法简介

快速聚类（k-meanscluster）是一种基于迭代（iteration）算法的聚类方法，在数据量不大的情况下，不失为一种有效的方法。

使用快速聚类，首先要确定凝聚中心，有几个凝聚中心，就得到几个类。

凝聚中心有两种确定法：

1．由系统根据数据情况和指定的类数，自动确定；

2．人工输入。

在产生了凝聚中心后，计算每个点（观察值）到各凝聚中心的距离，并按照距离最近原则归类。

例数据“物院学生成绩”。

用快速聚类法将学生按所示五科成绩分为3类。

将五门学科名称（变量）键入Variables，并将Numberof

Clusters的系统默认值2改变为3。

点击Save，全选对话项目。

返回，点击OK。

得输出文件。

这是系统根据观察数据估算出的初始聚类中心，由于要分为三个类，故有三个中心。

经过（三步）迭代计算后，得到最终聚类中心：

然后，按距离最近法则，将所有观察值分到这三个中心代表的类。

结果为：

这里只给出了每一类的观察值个数，没有具体个体类属结果，要知道具体个体属于哪一类，回到数据文件。

在数据文件中新生成了两列数据，其中的一列是QCL_1，显示每个观察值属于哪一类；

另一列是QCL_2，显示每个观察值到所在类中心的距离。

进一步，使用Means得到：

从这张表格可以大体看出三类的基本特点。

这张表格则显示：

在0.1的显著性水平下，所有分类指标都是显著的；

但在0.05的显著性水平下，只有系统分析和国际贸易这两个分类指标显著。

展开阅读全文