主成分分析聚类分析比较Word格式.docx-资源下载

主成分分析聚类分析比较Word格式.docx

1、对向量聚类后，我们对数据的处理难度也自然降低，所以从某种意义上说，聚类分析也起到了降维的作用。（二）不同之处主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法，也就是求出少数几个主成分（变量），使它们尽可能多地保留原始变量的信息，且彼此不相关。它是一种数学变换方法，即把给定的一组变量通过线性变换，转换为一组不相关的变量（两两相关系数为0 ，或样本向量彼此相互垂直的随机变量），在这种变换中，保持变量的总方差（方差之和）不变，同时具有最大方差，称为第一主成分；具有次大方差，称为第二主成分。依次类推。若共有p 个变量，实际应用中一般不是找p 个主成分，而是找出m

2、（m p）个主成分就够了，只要这m 个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组，使得同组内的变量之间相关性较高，但不同的组的变量相关性较低，每组变量代表一个基本结构，这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合，而是对原始变量进行分解，分解为公共因子和特殊因子两部分。具体地说，就是要找出某个问

3、题中可直接测量的具有一定相关性的诸指标，如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律，从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异，主成分分析能解释所有变异。聚类分析算法是给定m 维空间R 中的n 个向量，把每个向量归属到k 个聚类中的某一个，使得每一个向量与其聚类中心的距离最小。聚类可以理解为: 类内的相关性尽量大，类间相关性尽量小。聚类问题作为一种无指导的学习问题，目的在于通过把原来的对象集合分成相似的组或簇，来获得某种内在的数据规律。从三类分析的基本思想可以看出，聚类分析中并没于产生新变量，但是主成分分析和因子分析都产生了新变量。

4、三、数据标准化的比较主成分分析中为了消除量纲和数量级，通常需要将原始数据进行标准化，将其转化为均值为0方差为1 的无量纲数据。而因子分析在这方面要求不是太高，因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量，并且因子变量是每一个变量的内部影响变量，它的求解与原始变量是否同量纲关系并不太大，当然在采用主成分法求因子变量时，仍需标准化。不过在实际应用的过程中，为了尽量避免量纲或数量级的影响，建议在使用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法，主要将指标值先进行标准化处理得到协方差矩阵，即相关矩阵和对应的特征值与特征向量

5、，然后构造综合评价函数进行评价。聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化，即消除量纲的影响。不同方法进行标准化，会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z 分数法。四、应用中的优缺点比较（一）主成分分析 1、优点首先它利用降维技术用少数几个综合变量来代替原始多个变量，这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分，对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 2、缺点当主成分的因子负荷的符号有正有负时，综合评价函数意义就不明确。命名清晰性低。（

6、二）聚类分析聚类分析模型的优点就是直观，结论形式简明。在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。五案例分析：下表是关于全国31个省市的8项经济指标，以此为例，进行主成分分析。省份国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值北京25058144天津27206501河北12584839山西12504721内蒙1387

7、4134辽宁23974911114吉林18724430黑龙江23344145上海53439279113江苏19265943浙江22496619安徽12544744609福建23205857江西11824211山东15275145河南10344344湖北4685849120湖南14084797119广东26998250广西13145105556海南18145340四川353412614645117贵州9424475云南3345149西藏11107382陕西12084396甘肃10075493507青海14455753118宁夏13555079新疆14695348339经过输入数据，设置各项，Sp

8、ss最终输出结果如下：描述统计量均值标准差分析 N30相关矩阵a相关.267.951.191.617.426.718.400.431.022.763.874.363.792.104.659a. 行列式 = .000公因子方差初始提取.945.800.902.875.857.957.929.903提取方法：主成份分析。解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %1234.4025.2136.1387.065.8188.015.183成份矩阵a.885.384.121.607.271.912.161.212.466.368.486.738.252.797.594.438.823.

9、427.211提取方法 :主成份。a. 已提取了 3 个成份。从“解释的总方差”一表中可以得出相关系数矩阵的特征值为1=，2=，3=，4=，5=，6=，7=，8=前三个成分的特征值都大于1，并且累计贡献值达到了%，所以选取了前三个因素作为主成分。将“成分矩阵”表中没一列值分别除以特征值的开方，就得出了每一个特征值对应的特征向量，由此可以得出第一，第二，第三主成分表达式（令各因素为X1，X2X8）F1=*X1+*X2+*X3+*X4+*X7+*X8F2=*X2+*X4+*X5+*X6+*X7+*X8F3=*X1+*X2+*X3+*X5+*X6+*X7+*X8根据三个主成分表达式，通过SPSS的转

10、换功能，就可以得出成分结果：F1F2F397214506综合上述可知，各省份的8个经济指标中国内资产，居民消费，固定工资可以作为衡量经济的主要成分。聚类分析根据分类对象的不同，可分为样本聚类和变量聚类。样本聚类又称Q型聚类，对样本进行分类。变量聚类又称R型聚类，对变量进行分类。Q型聚类实例分析例：一组有关12盎司啤酒成分和价格的数据，变量包括beername（啤酒名称）、 calorie （热量卡路里）、 sodium （纳含量）、 alcohol （酒精含量）、 cost （价格）。要求根据12盎司啤酒的各成分含量及12盎司啤酒的价格对20种啤酒进行分类。分析（Analysis）分

11、类（Classify）分层聚类（Hierarchical Cluster）Q型聚类选个案，R型聚类选变量。相似性矩阵：表格形式给出任意两个样本的相关指数。方法：聚类方法：组间聚类，组内聚类，最近邻元素法，最远邻元素法度量标准：平方Euclidean距离，Euclidean距离，Pearson相关性。标准化：如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量进行标准化。常用的是Z分数法和全距从 0-1。这是常用的几种方法，具体问题根据具体结果选择方法。R型聚类实例分析有10个测检项目，分别用x1-x10表示。有50个学生参加测试，通过50个学生的数据，把这10个变量聚成两类。并且找出每类中的代表元素。x3,x8,x9,x10是一类x1,x2,x4,x5,x6,x7是一类。x8的相关指数最高，所以x8代表可第二类元素。参考文献:1李云晋.非标准化数据的聚类分析方法J.昆明冶金高等专科学校学报,2005,（1）.2王芳.主成分分析与因子分析的异同比较及应用J.统计教育,2003,（5）.3李蓉,李宇.基与主成分分析与聚类分析方法的我国西部区域划分问题的研究J.科技广场,2006,（5）.4王宏健,易柱新.主成分方法用于聚类分析J.经济数学,1996,（1）.

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？