ImageVerifierCode 换一换
格式:DOCX , 页数:13 ,大小:106.69KB ,
资源ID:5249699      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-5249699.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(第四讲聚类分析Word文件下载.docx)为本站会员(b****1)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

第四讲聚类分析Word文件下载.docx

1、 1欧氏距离(Euclidian Distance) 2欧氏距离平方(Squared Euclidian Distance)这是SPSS系统默认的距离。3闵可夫斯基距离(Minkowski)其中参数q为用户选项。 4切比雪夫距离(Chebyshev) 5布洛克距离(Block) 6自定义距离(Customized)其中参数q、r为用户选项。 以上距离越小,表示个体的性质越相近。22 相似系数 1皮尔逊相似系数(Pearson)其中的: 2夹角余弦(Cosine) 相似系数值越大,表示观察对象性质越相近。23 类(group)与类之间的距离 类指观察值的集合。两个类之间的距离,是用这两个类的特殊

2、点之间的距离来定义。设有两个类:Ga和Gb,它们之间的距离用D(a, b)表示。则有以下方法表示这两个类之间的距离: 1最短法 2最长法 3重心法称为类Ga和Gb的重心,其中的na和nb分别是Ga和Gb中包含的观察值的个数。这时4类平均法5离差平方和法首先定义类Gs的直径如下:记Ga的直径为Da,Gb的直径为Db,Ga+b=GaGb的直径为Da+b。则:第三节 数据的中心化与标准化 在聚类的时候,由于表示聚类特征的变量往往具有不同的量纲,因此聚类前经常要将其数据标准化。标准化后的数据是无量纲的。SPSS系统默认无标准化。以下假设变量X的观察值为:X1,X2,Xn;它的均值和标准差分别记为和S。

3、31 中心化中心化以后的数据均值为0。32 正规化易见,正规化以后的数据最小值为0。33 标准化1标准差标准化(z-score)标准差标准化后的数据均值为0,标准差为1。2极差标准化式中的R为观察值的极差。极差标准化后的数据均值为0,极差为1。3极差正规化变换后的数据最小值为0,极差为1。第四节 系统聚类法(Hierarchical Clustering)41 系统聚类法的算法 1取每个观察值为一个类; 2将性质最近的两个类合并为一个类,类的数目减1; 3如类的数目2,转2); 4结束聚类过程。42 系统聚类法举例 设有变量X 的5个观察值:1,2,4.5,6,8。试用系统聚类法聚类。观察值采

4、用Euclidean距离,类间距离采用最短法。第一步:每个观察值作为一类,共分成5类如下:G1=1,G2=2,G3=4.5,G4=6,G5=8计算它们的距离矩阵M1:G1G2G3G4G513.52.5541.5762 合并距离最小的两个类G1和G2,得G6=G1G2。重新计算距离矩阵M2:G61.5#2合并距离最小的两个类G3和G4,得G7=G3G4。矩阵M3:G72#合并G5和G7,得G8=G5G7。矩阵M4:G82.5#最后G6和G9合并成G9。聚类过程结束。43 聚类谱系图(Dendrogram) 略。第五节 系统聚类的不同方法介绍系统聚类由于使用的类间距离不同,产生了不同的聚类方法。主

5、要方法有: 1组间平均距离法(Between-Groups Linkage)使用类平均法计算类间距离。这是SPSS系统默认的方法。 2最短距离法(Nearest Neighbor)使用最短法计算类间距离。 3最长距离法(Furthest Neighbor)使用最长法计算类间距离。 4重心法(Centroid Clustering)使用重心法计算类间距离。 5离差平方和法(Wards Mathod)使用离差平方和法计算类间距离。第六节 系统聚类举例例 数据data06,将所列10个西部省市自治区按五项经济指标:国内生产总值(gdp)、工业总产值(industry)、农林牧渔总产值(agri)、全

6、社会固定资产投资(gdinvest)和全社会最终消费(consume)用系统聚类法分为三类,距离采用Euclidian distance,数据作z-score标准化。并从平均值角度说明这三类地区的区别。在Hierarchical Cluster Analysis对话框中,将上述五个变量输入Variable(s),点击Statistics ,在该对话框的Single solution中键入3,返回;点击Save ,在该对话框的Single solution中键入3,返回;点击Method ,在该对话框的Measure中Interval下拉菜单中选择Euclidian Distance,再在Tra

7、nsform之Standardize的下拉菜单中选择z-score。返回。OK ,得:这是一张聚类过程表,其中的Stage表示步骤,Cluster Combine表示被合并的类,例如第1步是把8号观察值与9号观察值合并,合并后的新类用Cluster 1即8命名。Coefficients则为被合并的两个类之间的距离或相似系数值。Stage Cluster First Appears则表示被合并的两个类是否原始类,如果是,则记为0;如果不是,则记它上一次被合并的步骤号,例如Stage 3由第5类与第8类合并为新8类,在Stage Cluster First Appears中Cluster 1为0,

8、表示第5类是原始类,Cluster 2为1,表示第8类不是原始类,而是在Stage 1中生成的新类。最后的Next Stage则表示这一步合并得的新类,下一次在哪一步出现,例如Stage 3合并得的新类5,下一次将在Stage 8出现。这是聚类结果,由于操作时选择了Save,所以在数据文件中系统已经自动添加了一个结果变量Clu3_1,其中记录了分类结果。如果到此为止,上述分类难有什么实际用途。还必须表示这三个类的差异之处。为此,运用Means,在对话框中,把5个聚类变量输入Dependent List,把Clu3_1输入Independent List,点击Options ,在其对话框的Cel

9、l Statistics中保留4个统计量:Mean、Number of Cases、Minimum、Maximum。返回,OK ,得输出表格Report,读者试解释这三类地区都代表什么发展水平。第七节 R型聚类介绍71 R型聚类与代表性变量的选择 1R型聚类即对变量聚类。在变量较多且变量间的相关性较强时,可以用R型聚类法找出代表性变量,以减少变量个数,达到降维的目的。 2代表性变量及其选择 R型聚类把变量聚为几个类,同一类变量之间有较强的相关性,因此可以从中选择一个变量作为代表。以下介绍代表性变量的选择方法:假设变量X1,X2,X3,X4构成一个类,为选择代表性变量,首先计算变量Xi和Xj的相

10、关系数:rij,ij,i, j=1,2,3,4。接着,对每个变量Xj按以下公式计算:其中mj是Xj所在类的变量个数,此处mj=4。选最大者对应的变量为代表性变量。72 R型聚类举例例 数据data10,该数据文件列举我国30个省、市、自治区的11个经济发展指标值,这些指标具有较强的相关性。试用R型聚类将这些指标分为3类,并对每一类变量找出代表性变量。命令Classify Hierarchical,打开Hierarchical Cluster Analysis对话框,将变量X1至X11全部输入Variable(s),在Cluster一栏中选择Variables,打开Statistics,在Sin

11、gle solution中键入3 ;返回,打开Method,在Measure中选择Pearson correlation,并在Standardize中选择z-scores。返回,OK。输出文件关于变量分类结果为:可见,变量分类如下:第一类:X1,X2,X3;第二类:X4,X5,X6,X7,X8,X10,X11;第三类:X9。以第一类为例,求代表性变量。首先计算变量X1,X2,X3之间的相关系数。为此,选择命令Correlate Bivariate。得相关系数如下:对于变量X1,有:相应地,X2和X3有:由于的值最大,故取X2为第一组变量的代表性变量。其他两类的代表性变量由读者作为练习求出。第八

12、节 快速聚类法简介快速聚类(k-means cluster)是一种基于迭代(iteration)算法的聚类方法,在数据量不大的情况下,不失为一种有效的方法。 使用快速聚类,首先要确定凝聚中心,有几个凝聚中心,就得到几个类。凝聚中心有两种确定法: 1由系统根据数据情况和指定的类数,自动确定; 2人工输入。 在产生了凝聚中心后,计算每个点(观察值)到各凝聚中心的距离,并按照距离最近原则归类。例 数据“物院学生成绩”。用快速聚类法将学生按所示五科成绩分为3类。将五门学科名称(变量)键入Variables,并将Number of Clusters的系统默认值2改变为3。点击Save ,全选对话项目。返

13、回,点击OK 。得输出文件。这是系统根据观察数据估算出的初始聚类中心,由于要分为三个类,故有三个中心。经过(三步)迭代计算后,得到最终聚类中心:然后,按距离最近法则,将所有观察值分到这三个中心代表的类。结果为:这里只给出了每一类的观察值个数,没有具体个体类属结果,要知道具体个体属于哪一类,回到数据文件。在数据文件中新生成了两列数据,其中的一列是QCL_1,显示每个观察值属于哪一类;另一列是QCL_2,显示每个观察值到所在类中心的距离。进一步,使用Means得到:从这张表格可以大体看出三类的基本特点。这张表格则显示:在0.1的显著性水平下,所有分类指标都是显著的;但在0.05的显著性水平下,只有系统分析和国际贸易这两个分类指标显著。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2