第五章聚类分析PPT资料.ppt

资源描述

第五章聚类分析PPT资料.ppt

《第五章聚类分析PPT资料.ppt》由会员分享，可在线阅读，更多相关《第五章聚类分析PPT资料.ppt（84页珍藏版）》请在冰点文库上搜索。

第五章聚类分析PPT资料.ppt

系统聚类（hierarchicalclustering）快速聚类（k-meansclustering）模糊聚类,聚类分析数据格式,k,二、距离与相似系数,样本间的亲疏关系通常用距离描述，变量间的亲疏关系通常用相似系数或相关系数描述不同测量尺度的数据，其距离的计算方法不同,

（一）、距离：

样本间的亲疏关系,距离的定义：

假设每个样品由p个变量描述，则每个样品都可以看成p维空间中的一个点，n个样品就是p维空间中的n个点，则第i样品与第j样品之间的距离记为dijdij满足下列条件dij0dii=0dij=djidijdik+dkj,1.欧式（Euclidian）距离,2.明氏（Minkowski）距离,当q=1，为绝对值距离，SPSS称为block当q=2，即为欧式距离当q=，有,称为切比雪夫（Chebychev）距离,实例计算,品,距离矩阵,绝对值距离,品,Euclidian距离的平方,2,Euclidian距离,明氏距离的缺点,各指标同等对待（权数相同），不能反映各指标变异程度上的差异距离的大小与各指标的观测单位有关，有时会出现不合理结果没有考虑指标之间的相关性,当各指标的测量值相差悬殊时，可以先对数据标准化，然后用标准化后的数据计算距离,3.马氏（Mahalanobis）距离,明氏距离没有考虑数据中的协方差模式，马氏距离则考虑了协方差，且不受指标测量单位的影响：

已知二维正态总体G的分布为：

GN（,）,其中,分别求点A=（1,1）,和点B=（1,-1）到均值的欧式距离和马氏距离,欧式等距离线,马氏等距离线,Mahalanobis距离例,A,B,欧氏距离、标准化变量的欧式距离与马氏距离的比较,4.Lance和Williams距离,对标准化变量：

5.配合距离,前几类距离多用于定距和定比尺度数据，对于定类和定序变量：

配合距离例,4种品牌的软饮料在4个方面的特性：

是否可乐口味？

是否含有咖啡因？

是否节食饮料？

是否可口可乐公司产？

距离矩阵,1.夹角余弦（Cosine）,

（二）相似系数：

变量间的亲疏关系,受相似形的启发而来，AB和CD尽管长度不一，但形状相似,A,B,D,C,2.Pearson相关系数,

（二）相似系数,SPSS的“分析”“相关”“距离”,Measures对话框,定距尺度,定序尺度,定类尺度,三、系统聚类法,聚合法,分解法,通常分为两步：

先做出类别距离谱系图，再根据谱系图的特点确定分类数并分类,Agglomerative系统聚类法基本步骤,步骤1：

将n个样品各作为一类，共n类：

C1、C2、Cn。

计算各类之间的距离，构成距离矩阵：

dcicj=dij步骤2：

找到距离最近的两类合并为一新类步骤3：

计算新类与当前各类的距离。

重复步骤2、3，直至合并成一类为止，形成谱系图根据谱系图确定如何分类,单样本类，类与类之间的距离为样品距离,类间距离,类与类间距离,类与类之间的距离,1.最短距离法（singlelinkage）2.最长距离法（completelinkage）3.中位数法（medianmethod）4.类平均法（averagelinkage）5.可变类平均法（flexible-betamethod）6.质心法（centroidmethod）7.Ward离差平方和法（Wardsminimum-variancemethod）,AgglomerativeMethods：

各种不同方法的基本步骤相同，只是类与类之间距离的计算方法不同。

（一）最短距离法,类与类之间的距离是两类间两两样品间的最短距离,6个民族的粗死亡率与期望寿命,哈萨克与藏族的距离最短，最先合并形成新类CL7,新类CL7和其余四类的距离,第二次合并,新类和各类的距离,第三次合并,第四次合并,最后合并成一类,谱系图不显示实际距离，显示0-25的比例距离,树状图,冰柱图,1,2,3,4,5,融合在一起的为一类,

（二）最长距离法,类与类之间的距离是两类间两两样品间的最长距离,前例：

最长距离法,第1次合并仍取最短欧式距离,新类和各类的距离：

取最大值,第2次合并,新类和各类的距离：

取最大值,第3次合并,第4次合并,最后合并,例题,5个品牌饮料的热量、咖啡因、钠含量及价格的距离矩阵如下，请用最长距离法作出谱系图。

根据谱系图，这五个品牌饮料可以分为几类？

（三）中位数法（medianmethod）,最长距离夸大了类间距离，最短距离低估了类间距离。

介于两者间的距离即为中间距离,（四）类平均法（averagelinkagebetweengroup）,SPSS作为默认方法，称为“组间联接”,（五）质心法（centroidmethod）,类与类间的距离用各自重心间的欧式距离表示,（六）Ward最小方差法（Wardminimumvariancemethod）,源于方差分析。

类内离差平方和：

类中各样品到类重心（均值）的平方欧式距离之和。

基本思路：

两类合并后，离差平方和就会增加。

每次选择使离差平方和增加（SSMSSKSSL）最小的两类进行合并，直至所有的样品归为一类。

（七）各种系统聚类方法的统一,以上聚类方法的计算步骤完全相同，仅类与类之间的定义不同。

Lance和Williams于1967年将其统一为：

八种系统聚类法公式的参数,注意：

几种聚类方法获得的结果不一定相同,最长距离法,最短距离法,分类数的确定及类别的解释,系统聚类法给我们提供了一个类别距离谱系，最终样本如何分类、分成几类需要我们自己根据研究的目的确定。

3类,2类,2类,系统聚类的SPSS实现,指定参与聚类的变量名和样品号,存放标识变量,选择聚类类型,“统计量”,聚类状态表,相似矩阵,类成员：

不显示类成员表,显示指定范围中每一步类成员,列出指定类数的类成员,“图”对话框,树状结构图,冰柱图,冰柱的方向,显示聚类的每一步,指定显示的聚类范围,不生成冰柱图,“方法”对话框,距离测度方法：

不同尺度变量选择不同方法,定距尺度变量,定序尺度变量,01变量,确定标准化的方法：

只有前两种尺度的数据才能标准化,测度转换方法,距离值取绝对值,相似度变为不相似度,距离标准化,聚类方法选项,“保存”对话框,生成一个新变量，表明每个个体所属类,指定范围内的结果，生成若干个新变量,系统聚类例：

轿车的市场细分,对151名MBA学生的轿车偏好进行调查，要求他们对10种轿车打分，分值1-10（最高分）。

10种轿车型号为：

BMW328i,FordExplorer,InfinitiJ30,JeepGrandCherikee,LexusES300,ChryslerTown&

Country,MercedsC280,Saab9000,PorscheBoxster,VolvoV90.用Wards系统聚类法进行分类初分析：

根据谱系图确定分类数样本数太多，谱系图不易看，可随机抽样,四、快速聚类法（k-means）,也叫动态聚类、逐步聚类、迭代聚类与系统聚类的主要区别非层次性递推过程从初始分类开始不断优化的过程当样本量很大时，用系统聚类法的计算工作量极大，作出的树状图也十分复杂,不便于分析，用快速聚类较好。

K-meansprocess,Important:

initialcentroidsorclustercentersandthenumberofclusters,注意：

快速聚类需事先确定分几类,容易产生局部最优而非全局最优，初始分类很重要,初始类中心的确定,自动选择必须给出允许分类的最大个数k凭经验选择可以先选取部分样本作系统聚类（例如用Wards方法，它与K-means的分类原则很相似），以得到初始分类的类中心（并确定分类数），建立一个初始中心数据文件,快速聚类的SPSS实现,快速聚类主对话框,指定分类数,先定初始类别中心，再按K-means算法叠代分类,仅按初始类别中心点分类,类中心的输入输出,“迭代”对话框：

叠代终止准则,限定K-means算法的收敛判据：

0N1，含义：

当两次叠代计算的最小的类中心的变化距离小于初始类中心距离的N%时，叠代停止。

限定在每个观测量被分配到一类后，马上计算新的类中心。

如不选此项，则在完成了所有观测量的一次分配后，再计算各类的类中心,“保存”对话框,建立一个新变量记录分类结果（默认名：

qx1_1）。

建立一个新变量记录各观测量距所属类中心间的欧式距离（默认名：

qc1_2）,“选项”对话框,例题输出结果,类别间距离差异均显著,轿车市场细分例-续,在系统聚类的基础上，用K-means进行进一步分析比较，确定最终分类数，并分析结果。

分别按照分3类、4类和5类进行快速聚类，比较结果。

对结果进行分析：

计算各类平均得分,五、变量聚类法,分析的目的了解变量间及变量组合间的亲疏关系对变量进行分类根据分类结果及它们之间的关系，在每一类中选择有代表性的变量作为重要变量，用少数几个重要变量进一步作分析计算，如进行回归分析或Q型聚类。

五、变量聚类法,变量聚类例,为了研究30个省、市、自治区1991年城镇居民消费的分布规律，对变量和样本分别进行聚类分析。

月平均消费数据如表，其中：

x1-人均粮食支出（元/人），x2-人均副食支出，x3-人均烟、酒、茶支出，x4-人均其他副食支出，x5人均衣着支出，x6-人均日用品支出，x7-人均燃料支出，x8-人均非商品支出,变量聚类例,先作样本聚类：

类平均法、ward法再作变量聚类样本距离测度：

夹角余弦或相关系数类距离：

最短距离法、最长距离法、类平均注意：

重心法、median、ward法都要求用欧式距离平方,数据,Ward法,类平均法,样品聚类结果,变量聚类：

相关性强的指标归并到一起,相关系数,x1-人均粮食支出x2-人均副食支出x3-人均烟酒茶支出，x4-人均其他副食支出x5人均衣着支出x6-人均日用品支出，x7-人均燃料支出x8-人均非商品支出,聚类分析小结,1聚类分析的概念2两种聚类思想：

系统聚类、快速聚类谱系图确定分类数3Q-型聚类分析4R-型聚类分析5SPSS的聚类分析过程6聚类分析的结果评述,系统聚类的统计思想,对于位置类别的样本或变量，依据相应的定义把它们分为若干类，分类过程是一个逐步减少类别的过程，在每一个聚类层次，必须满足“类内差异小，类间差异大”原则，直至归为一类。

评价聚类效果的指标一般是方差，距离小的样品所组成的类方差较小。

快速聚类的基本思想,动态聚类的方法源于数学中的迭代算法，就是当样品进行聚类时，先给定一个比较粗糙的初始分类，然后设计某种原则进行类别的修改，不断调整和改正这些类别的样品组成，直到比较合理为止。

为了迅速找到一种初始分类，我们一般先选择一些凝聚点，让样品依照某种规则向凝聚点凝聚。

动态凝聚的一般步骤是：

聚类分析的特点,不同聚类方法所得到的分类结果可能不同。

统计的优势在于每一种聚类过程可以在瞬间完成，因此可以进行大量尝试性的分析，并对结果进行比较，以便我们对数据做出更加合理的结论。

展开阅读全文