第四讲聚类分析Word文件下载.docx

上传人:b****1 文档编号:5249699 上传时间:2023-05-04 格式:DOCX 页数:13 大小:106.69KB
下载 相关 举报
第四讲聚类分析Word文件下载.docx_第1页
第1页 / 共13页
第四讲聚类分析Word文件下载.docx_第2页
第2页 / 共13页
第四讲聚类分析Word文件下载.docx_第3页
第3页 / 共13页
第四讲聚类分析Word文件下载.docx_第4页
第4页 / 共13页
第四讲聚类分析Word文件下载.docx_第5页
第5页 / 共13页
第四讲聚类分析Word文件下载.docx_第6页
第6页 / 共13页
第四讲聚类分析Word文件下载.docx_第7页
第7页 / 共13页
第四讲聚类分析Word文件下载.docx_第8页
第8页 / 共13页
第四讲聚类分析Word文件下载.docx_第9页
第9页 / 共13页
第四讲聚类分析Word文件下载.docx_第10页
第10页 / 共13页
第四讲聚类分析Word文件下载.docx_第11页
第11页 / 共13页
第四讲聚类分析Word文件下载.docx_第12页
第12页 / 共13页
第四讲聚类分析Word文件下载.docx_第13页
第13页 / 共13页
亲,该文档总共13页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

第四讲聚类分析Word文件下载.docx

《第四讲聚类分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《第四讲聚类分析Word文件下载.docx(13页珍藏版)》请在冰点文库上搜索。

第四讲聚类分析Word文件下载.docx

1.欧氏距离(EuclidianDistance)

2.欧氏距离平方(SquaredEuclidianDistance)

这是SPSS系统默认的距离。

3.闵可夫斯基距离(Minkowski)

其中参数q为用户选项。

4.切比雪夫距离(Chebyshev)

5.布洛克距离(Block)

6.自定义距离(Customized)

其中参数q、r为用户选项。

以上距离越小,表示个体

的性质越相近。

2.2相似系数

1.皮尔逊相似系数(Pearson)

其中的:

2.夹角余弦(Cosine)

相似系数值越大,表示观察对象性质越相近。

2.3类(group)与类之间的距离

类指观察值的集合。

两个类之间的距离,是用这两个类的特殊点之间的距离来定义。

设有两个类:

Ga和Gb,它们之间的距离用D(a,b)表示。

则有以下方法表示这两个类之间的距离:

1.最短法

2.最长法

3.重心法

为类Ga和Gb的重心,其中的na和nb分别是Ga和Gb中包含的观察值的个数。

这时

4.类平均法

5.离差平方和法

首先定义类Gs的直径如下:

记Ga的直径为Da,Gb的直径为Db,Ga+b=GaGb的直径为Da+b。

则:

第三节数据的中心化与标准化

在聚类的时候,由于表示聚类特征的变量往往具有不同的量纲,因此聚类前经常要将其数据标准化。

标准化后的数据是无量纲的。

SPSS系统默认无标准化。

以下假设变量X的观察值为:

X1,X2,…,Xn;

它的均值和标准差分别记为

和S。

3.1中心化

中心化以后的数据均值为0。

3.2正规化

易见,正规化以后的数据最小值为0。

3.3标准化

1.标准差标准化(z-score)

标准差标准化后的数据均值为0,标准差为1。

2.极差标准化

式中的R为观察值的极差。

极差标准化后的数据均值为0,极差为1。

3.极差正规化

变换后的数据最小值为0,极差为1。

第四节系统聚类法(HierarchicalClustering)

4.1系统聚类法的算法

1.取每个观察值为一个类;

2.将性质最近的两个类合并为一个类,类的数目减1;

3.如类的数目2,转2);

4.结束聚类过程。

4.2系统聚类法举例

设有变量X的5个观察值:

1,2,4.5,6,8。

试用系统聚类法聚类。

观察值采用Euclidean距离,类间距离采用最短法。

第一步:

每个观察值作为一类,共分成5类如下:

G1={1},G2={2},G3={4.5},G4={6},G5={8}

计算它们的距离矩阵M1:

G1

G2

G3

G4

G5

1#

3.5

2.5

5

4

1.5

7

6

2

合并距离最小的两个类G1和G2,得G6=G1G2。

重新计算距离矩阵M2:

G6

1.5#

2

合并距离最小的两个类G3和G4,得G7=G3G4。

矩阵M3:

G7

2#

合并G5和G7,得G8=G5G7。

矩阵M4:

G8

2.5#

最后G6和G9合并成G9。

聚类过程结束。

4.3聚类谱系图(Dendrogram)略。

第五节系统聚类的不同方法介绍

系统聚类由于使用的类间距离不同,产生了不同的聚类方法。

主要方法有:

1.组间平均距离法(Between-GroupsLinkage)

使用类平均法计算类间距离。

这是SPSS系统默认的方法。

2.最短距离法(NearestNeighbor)

使用最短法计算类间距离。

3.最长距离法(FurthestNeighbor)

使用最长法计算类间距离。

4.重心法(CentroidClustering)

使用重心法计算类间距离。

5.离差平方和法(Ward’sMathod)

使用离差平方和法计算类间距离。

第六节系统聚类举例

例数据data06,将所列10个西部省市自治区按五项经济指标:

国内生产总值(gdp)、工业总产值(industry)、农林牧渔总产值(agri)、全社会固定资产投资(gdinvest)和全社会最终消费(consume)用系统聚类法分为三类,距离采用Euclidiandistance,数据作z-score标准化。

并从平均值角度说明这三类地区的区别。

在HierarchicalClusterAnalysis对话框中,将上述五个变量输入Variable(s),点击Statistics,在该对话框的Singlesolution中键入3,返回;

点击Save,在该对话框的Singlesolution中键入3,返回;

点击Method,在该对话框的Measure中Interval下拉菜单中选择EuclidianDistance,再在Transform之Standardize的下拉菜单中选择z-score。

返回。

OK,得:

这是一张聚类过程表,其中的Stage表示步骤,ClusterCombine表示被合并的类,例如第1步是把8号观察值与9号观察值合并,合并后的新类用Cluster1即8命名。

Coefficients则为被合并的两个类之间的距离或相似系数值。

StageClusterFirstAppears

则表示被合并的两个类是否原始类,如果是,则记为0;

如果不是,则记它上一次被合并的步骤号,例如Stage3由第5类与第8类合并为新8类,在StageClusterFirstAppears中Cluster1为0,表示第5类是原始类,Cluster2为1,表示第8类不是原始类,而是在Stage1中生成的新类。

最后的NextStage则表示这一步合并得的新类,下一次在哪一步出现,例如Stage3合并得的新类5,下一次将在Stage8出现。

这是聚类结果,由于操作时选择了Save,所以在数据文件中系统已经自动添加了一个结果变量Clu3_1,其中记录了分类结果。

如果到此为止,上述分类难有什么实际用途。

还必须表示这三个类的差异之处。

为此,运用Means,在对话框中,把5个聚类变量输入DependentList,把Clu3_1输入IndependentList,点击Options,在其对话框的CellStatistics中保留4个统计量:

Mean、NumberofCases、Minimum、Maximum。

返回,OK,得输出表格Report,读者试解释这三类地区都代表什么发展水平。

第七节R型聚类介绍

7.1R型聚类与代表性变量的选择

1.R型聚类即对变量聚类。

在变量较多且变量间的相关性较强时,可以用R型聚类法找出代表性变量,以减少变量个数,达到降维的目的。

2.代表性变量及其选择R型聚类把变量聚为几个类,同一类变量之间有较强的相关性,因此可以从中选择一个变量作为代表。

以下介绍代表性变量的选择方法:

假设变量X1,X2,X3,X4构成一个类,为选择代表性变量,首先计算变量Xi和Xj的相关系数:

rij,i≠j,i,j=1,2,3,4。

接着,对每个变量Xj按以下公式计算:

其中mj是Xj所在类的变量个数,此处mj=4。

最大者对应的变量为代表性变量。

7.2R型聚类举例

例数据data10,该数据文件列举我国30个省、市、自治区的11个经济发展指标值,这些指标具有较强的相关性。

试用R型聚类将这些指标分为3类,并对每一类变量找出代表性变量。

命令Classify\Hierarchical,打开HierarchicalClusterAnalysis对话框,将变量X1至X11全部输入Variable(s),在Cluster一栏中选择⊙Variables,打开Statistics,在Singlesolution中键入3;

返回,打开Method,在Measure中选择Pearsoncorrelation,并在Standardize中选择z-scores。

返回,OK。

输出文件关于变量分类结果为:

可见,变量分类如下:

第一类:

X1,X2,X3;

第二类:

X4,X5,X6,X7,X8,X10,X11;

第三类:

X9。

以第一类为例,求代表性变量。

首先计算变量X1,X2,X3之间的相关系数。

为此,选择命令Correlate\Bivariate。

得相关系数如下:

对于变量X1,有:

相应地,X2和X3有:

由于

的值最大,故取X2为第一组变量的代表性变量。

其他两类的代表性变量由读者作为练习求出。

第八节快速聚类法简介

快速聚类(k-meanscluster)是一种基于迭代(iteration)算法的聚类方法,在数据量不大的情况下,不失为一种有效的方法。

使用快速聚类,首先要确定凝聚中心,有几个凝聚中心,就得到几个类。

凝聚中心有两种确定法:

1.由系统根据数据情况和指定的类数,自动确定;

2.人工输入。

在产生了凝聚中心后,计算每个点(观察值)到各凝聚中心的距离,并按照距离最近原则归类。

例数据“物院学生成绩”。

用快速聚类法将学生按所示五科成绩分为3类。

将五门学科名称(变量)键入Variables,并将Numberof

Clusters的系统默认值2改变为3。

点击Save,全选对话项目。

返回,点击OK。

得输出文件。

这是系统根据观察数据估算出的初始聚类中心,由于要分为三个类,故有三个中心。

经过(三步)迭代计算后,得到最终聚类中心:

然后,按距离最近法则,将所有观察值分到这三个中心代表的类。

结果为:

这里只给出了每一类的观察值个数,没有具体个体类属结果,要知道具体个体属于哪一类,回到数据文件。

在数据文件中新生成了两列数据,其中的一列是QCL_1,显示每个观察值属于哪一类;

另一列是QCL_2,显示每个观察值到所在类中心的距离。

进一步,使用Means得到:

从这张表格可以大体看出三类的基本特点。

这张表格则显示:

在0.1的显著性水平下,所有分类指标都是显著的;

但在0.05的显著性水平下,只有系统分析和国际贸易这两个分类指标显著。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2