主成分分析与因子分析的优缺点.doc

资源描述

主成分分析与因子分析的优缺点.doc

《主成分分析与因子分析的优缺点.doc》由会员分享，可在线阅读，更多相关《主成分分析与因子分析的优缺点.doc（21页珍藏版）》请在冰点文库上搜索。

主成分分析与因子分析的优缺点.doc

主成分分析与因子分析的优缺点

二、基本思想的异同

（一）共同点

主成分分析法和因子分析法都是用少数的几个变量（因子）来综合反映原始变量（因子）的主要信息，变量虽然较原始变量少，但所包含的信息量却占原始信息的85%以上，所以即使用少数的几个新变量，可信度也很高，也可以有效地解释问题.并且新的变量彼此间互不相关，消除了多重共线性.这两种分析法得出的新变量，并不是原始变量筛选后剩余的变量.在主成分分析中，最终确定的新变量是原始变量的线性组合，如原始变量为x1，x2，...，x3，经过坐标变换，将原有的p个相关变量xi作线性变换，每个主成分都是由原有p个变量线性组合得到.在诸多主成分zi中，z1在方差中占的比重最大，说明它综合原有变量的能力最强，越往后主成分在方差中的比重也小，综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系，它不是对原始变量的重新组合，而是对原始变量进行分解，分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子；特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分，就可以将主成分得分或因子得分代替原始变量进行进一步的分析，因为主成分变量及因子变量比原始变量少了许多，所以起到了降维的作用，为我们处理数据降低了难度.聚类分析的基本思想是：

采用多变量的统计值，定量地确定相互之间的亲疏关系，考虑对象多因素的联系和主导作用，按它们亲疏差异程度，归入不同的分类中一元，使分类更具客观实际并能反映事物的内在必然联系.也就是说，聚类分析是把研究对象视作多维空间中的许多点，并合理地分成若干类，因此它是一种根据变量域之间的相似性而逐步归群成类的方法，它能客观地反映这些变量或区域之间的内在组合关系[3].聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法，是多元统计分析方法，分析的结果为群集.对向量聚类后，我们对数据的处理难度也自然降低，所以从某种意义上说，聚类分析也起到了降维的作用.

（二）不同之处

主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法，也就是求出少数几个主成分（变量），使它们尽可能多地保留原始变量的信息，且彼此不相关.它是一种数学变换方法，即把给定的一组变量通过线性变换，转换为一组不相关的变量（两两相关系数为0，或样本向量彼此相互垂直的随机变量），在这种变换中，保持变量的总方差（方差之和）不变，同时具有最大方差，称为第一主成分；具有次大方差，称为第二主成分.依次类推.若共有p个变量，实际应用中一般不是找p个主成分，而是找出m（m三、数据标准化的比较

主成分分析中为了消除量纲和数量级，通常需要将原始数据进行标准化，将其转化为均值为0方差为1的无量纲数据.而因子分析在这方面要求不是太高，因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量，并且因子变量是每一个变量的内部影响变量，它的求解与原始变量是否同量纲关系并不太大，当然在采用主成分法求因子变量时，仍需标准化.不过在实际应用的过程中，为了尽量避免量纲或数量级的影响，建议在使用因子分析前还是要进行数据标准化.在构造因子变量时采用的是主成分分析方法，主要将指标值先进行标准化处理得到协方差矩阵，即相关矩阵和对应的特征值与特征向量，然后构造综合评价函数进行评价.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果.因此在聚类过程进行之前必须对变量值进行标准化，即消除量纲的影响.不同方法进行标准化，会导致不同的聚类结果要注意变量的分布.如果是正态分布应该采用z分数法.

四、应用中的优缺点比较

（一）主成分分析

1、优点

首先它利用降维技术用少数几个综合变量来代替原始多个变量，这些综合变量集中了原始变量的大部分信息.其次它通过计算综合主成分函数得分，对客观经济现象进行科学评价.再次它在应用上侧重于信息贡献影响力综合评价.

2、缺点

当主成分的因子负荷的符号有正有负时，综合评价函数意义就不明确.命名清晰性低.

（二）因子分析

1、优点

第一它不是对原有变量的取舍，而是根据原始变量的信息进行重新组合，找出影响变量的共同因子，化简数据；第二，它通过旋转使得因子变量更具有可解释性，命名清晰性高.

2、缺点

在计算因子得分时，采用的是最小二乘法，此法有时可能会失效.

（三）聚类分析

1、优点

聚类分析模型的优点就是直观，结论形式简明.

2、缺点

在样本量较大时，要获得聚类结论有一定困难.由于相似系数是根据被试的反映来建立反映被试间内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误.

第二篇：

主成分分析与全成分分析区别主成分分析与全成分分析的区别

主成分分析。

是把几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，而且彼此之间互不相关的一种数学降维的方法。

全成分分析。

是将送检样品中的原材料、填料、助剂等进行定性定量分析。

塑料原材料种类，填料种类、粒径，助剂种类都能影响对产品的性能、寿命，通常是同一种原材料、同一种填料，因为助剂种类的不同，造成产品性能大不相同。

主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在实际问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主要目的

是希望用较少的变量去解释原来资料中的大部分变量，将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。

通常是选出比原始变量个数少，能解释大部分资料中变量的几个新变量，即所谓主成分，并用以解释资料的综合性指标。

由此可见，主成分分析实际上是一种降维方法。

分析步骤

数据标准化;

一、求相关系数矩阵;

二、一系列正交变换，使非对角线上的数置0，加到主对角上;

三、得特征根xi（即相应那个主成分引起变异的方差），并按照从大到小的顺序把特征根排列;

四、求各个特征根对应的特征向量;

五、用下式计算每个特征根的贡献率vi;

vi=xi/（x1+x2+........）

六、根据特征根及其特征向量解释主成分物理意义。

主成分分析的基本思想

主成分分析是设法将原来众多具有一定相关性（比如p个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关.通常数学上的处理就是将原来p个指标作线性组合，作为新的综合指标。

主成分分析是把几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，而且彼此之间互不相关的一种数学降维的方法。

第三篇：

主成分分析法的优点主成分分析法的优点：

1、可消除评价指标之间的相关影响

因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分，而且实践证明指标之间相关程度越高，主成分分析效果越好。

2、可减少指标选择的工作量

对于其它评价方法，由于难以消除评价指标间的相关影响，所以选择指标时要花费不少精力，而主成分分析由于可以消除这种相关影响，所以在指标选择上相对容易些。

3、当评级指标较多时还可以在保留绝大部分信息的情况下用少数几个综合指标代替原指标进行分析

主成分分析中各主成分是按方差大小依次排列顺序的，在分析问题时，可以舍弃一部分主成分，只取前后方差较大的几个主成分来代表原变量，从而减少了计算工作量。

4、在综合评价函数中，各主成分的权数为其贡献率，它反映了该主成分包含原始数据的信息量占全部信息量的比重，这样确定权数是客观的、合理的，它克服了某些评价方法中认为确定权数的缺陷。

5、这种方法的计算比较规范，便于在计算机上实现，还可以利用专门的软件。

主成分分析法的缺点：

1、在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平（即变量降维后的信息量须保持在一个较高水平上），其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。

2、主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。

因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

聚类分析法优点：

聚类分析模型的优点就是直观，结论形式简明

聚类分析法缺点：

在样本量较大时，要获得聚类结论有一定困难。

由于相似系数是根据被试的反映来建立反映被试间内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

第四篇：

因子分析方法因子分析法

1.因子分析（factoranalysis）

因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子（之所以称其为因子，是因为它是不可观测的，即不是具体的变量），以较少的几个因子反映原资料的大部分信息。

运用这种研究技术，我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些，以及它们的影响力（权重）运用这种研究技术，我们还可以为市场细分做前期分析。

因子分析法与其他一些多元统计方法的区别：

2.主成分分析

主成分分析主要是作为一种探索性的技术，在分析者进行多元数据分析之前，用主成分分析来分析数据，让自己对数据有一个大致的了解是非常重要的。

主成分分析一般很少单独使用：

a，了解数据。

（screeningthedata），b，和clusteranalysis一起使用，c，和判别分析一起使用，比如当变量很多，个案数不多，直接使用判别分析可能无解，这时候可以使用主成份发对变量简化。

（reducedimensionality）d，在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数），还可以用来处理共线性。

1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。

2、主成分分析的重点在于解释各变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。

3、主成分分析中不需要有假设（assumptions），因子分析则需要一些假设。

因子分析的假设包括：

各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。

4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不同的因子。

5、在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。

在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。

和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。

大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。

而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。

当然，这种情况也可以使用因子得分做到。

所以这种区分不是绝对的。

总得来说，主成分分析主要是作为一种探索性的技术，在分析者进行多元数据分析之前，用主成分分析来分析数据，让自己对数据有一个大致的了解是非常重要的。

主成分分析一般很少单独使用：

a，了解数据。

（reducedimensionality）d，在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数），还可以用来处理共线性。

在算法上，主成分分析和因子分析很类似，不过，在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差，而是和变量对应的共同度（变量方差中被各因子所解释的部分）。

3.聚类分析（clusteranalysis）

聚类分析是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类的分析技术。

在市场研究领域，聚类分析主要应用方面是帮助我们寻找目标消费群体，运用这项研究技术，我们可以划分出产品的细分市场，并且可以描述出各细分市场的人群特征，以便于客户可以有针对性的对目标消费群体施加影响，合理地开展工作。

4.判别分析（discriminatoryanalysis）

判别分析（discriminatoryanalysis）的任务是根据已掌握的1批分类明确的样品，建立较好的判别函数，使产生错判的事例最少，进而对给定的1个新样品，判断它来自哪个总体。

根据资料的性质，分为定性资料的判别分析和定量资料的判别分析；采用不同的判别准则，又有费歇、贝叶斯、距离等判别方法。

费歇（fisher）判别思想是投影，使多维问题简化为一维问题来处理。

选择一个适当的投影轴，使所有的样品点都投影到这个轴上得到一个投影值。

对这个投影轴的方向的要求是：

使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。

贝叶斯（bayes）判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。

所谓先验概率，就是用概率来描述人们事先对所研究的对象的认识的程度；所谓后验概率，就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。

它是对先验概率修正后的结果。

距离判别思想是根据各样品与各母体之间的距离远近作出判别。

即根据资料建立关于各母体的距离判别函数式，将各样品数据逐一代入计算，得出各样品与各母体之间的距离值，判样品属于距离值最小的那个母体。

5.对应分析（correspondenceanalysis）

对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。

运用这种研究技术，我们可以获取有关消费者对产品品牌定位方面的图形，从而帮助您及时调整营销策略，以便使产品品牌在消费者中能树立起正确的形象。

这种研究技术还可以用于检验广告或市场推广活动的效果，我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。

6.典型相关分析

典型相关分析是分析两组随机变量间线性密切程度的统计方法，是两变量间线性相关分析的拓广。

各组随机变量中既可有定量随机变量，也可有定性随机变量（分析时须f6说明为定性变量）。

本法还可以用于分析高维列联表各边际变量的线性关系。

注意：

1.严格地说，一个典型相关系数描述的只是一对典型变量之间的相关，而不是两个变量组之间的相关。

而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。

2.典型相关模型的基本假设和数据要求

要求两组变量之间为线性关系，即每对典型变量之间为线性关系；

每个典型变量与本组所有观测变量的关系也是线性关系。

如果不是线性关系，可先线性化：

如经济水平和收入水平与其他一些社会发展水之间并不是线性关系，可先取对数。

即log经济水平，log收入水平。

3.典型相关模型的基本假设和数据要求

所有观测变量为定量数据。

同时也可将定性数据按照一定形式设为虚拟变量后，再放入典型相关模型中进行分析。

7.多维尺度分析（multi-dimensionanalysis）

多维尺度分析（multi-dimensionanalysis）是市场研究的一种有力手段，它可以通过低维空间（通常是二维空间）展示多个研究对象（比如品牌）之间的联系，利用平面距离来反映研究对象之间的相似程度。

由于多维尺度分析法通常是基于研究对象之间的相似性（距离）的，只要获得了两个研究对象之间的距离矩阵，我们就可以通过相应统计软件做出他们的相似性知觉图。

在实际应用中，距离矩阵的获得主要有两种方法。

一种是采用直接的相似性评价，先所有评价对象进行两两组合，然后要求被访者所有的这些组合间进行直接相似性评价，这种方法我们称之为直接评价法；另一种为间接评价法，由研究人员根据事先经验，找出影响人们评价研究对象相似性的主要属性，然后对每个研究对象，让被访者对这些属性进行逐一评价，最后将所有属性作为多维空间的坐标，通过距离变换计算对象之间的距离。

多维尺度分析的主要思路是利用对被访者对研究对象的分组，来反映被访者对研究对象相似性的感知，这种方法具有一定直观合理性。

同时该方法实施方便，调查中被访者负担较小，很容易得到理解接受。

当然，该方法的不足之处是牺牲了个体距离矩阵，由于每个被访者个体的距离矩阵只包含1与0两种取值，相对较为粗糙，个体距离矩阵的分析显得比较勉强。

但这一点是完全可以接受的，因为对大多数研究而言，我们并不需要知道每一个体的空间知觉图。

多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。

在自然科学和社会科学的许多学科中，研究者都有可能需要分析处理有多个变量的数据的问题。

能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论，不仅对所研究的专业领域要有很好的训练，而且要掌握必要的统计分析工具。

对实际领域中的研究者和高等院校的研究生来说，要学习掌握多元统计分析的各种模型和方法，手头有一本好的、有长久价值的参考书是非常必要的。

这样一本书应该满足以下条件：

首先，它应该是“浅入深出”的，也就是说，既可供初学者入门，又能使有较深基础的人受益。

其次，它应该是既侧重于应用，又兼顾必要的推理论证，使学习者既能学到“如何”做，而且在一定程度上了解“为什么”这样做。

最后，它应该是内涵丰富、全面的，不仅要基本包括各种在实际中常用的多元统计分析方法，而且还要对现代统计学的最新思想和进展有所介绍、交代。

因子分析的核心问题有两个：

一是如何构造因子变量；二是如何对因子变量进行命名解释。

因此，因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

（i）因子分析常常有以下四个基本步骤：

（1）确认待分析的原变量是否适合作因子分析。

（2）构造因子变量。

（3）利用旋转方法使因子变量更具有可解释性。

（4）计算因子变量得分。

（ii）因子分析的计算过程：

（1）将原始数据标准化，以消除变量间在数量级和量纲上的不同。

（2）求标准化数据的相关系数矩阵；

（3）求相关矩阵的特征值和特征向量；

（4）计算方差贡献率与累积方差贡献率；

（5）确定因子：

设f1，f2，…，fp为p个因子，其中前m个因子包含的数据信息总量（即其累积贡献率）不低于80%时，可取前m个因子来反映原评价指标；

（6）因子旋转：

若所得的m个因子无法确定或其实际意义不是很明显，这时需将因子进行旋转以获得较为明显的实际含义。

（7）用原指标的线性组合来求各因子得分：

采用回归估计法，bartlett估计法或thomson估计法计算因子得分。

（8）综合得分

以各因子的方差贡献率为权，由各因子的线性组合得到综合评价指标函数。

f=（w1f1+w2f2+…+wmfm）／（w1+w2+…+wm）

此处wi为旋转前或旋转后因子的方差贡献率。

（9）得分排序。

利用综合得分可以得到得分名次。

在采用多元统计分析技术进行数据处理、建立宏观或微观系统模型时，需要研究以下几个方面的问题：

·简化系统结构，探讨系统内核。

可采用主成分分析、因子分析、对应分析等方法，在众多因素中找出各个变量最佳的子集合，从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。

“从树木看森林”，抓住主要矛盾，把握主要矛盾的主要方面，舍弃次要因素，以简化系统的结构，认识系统的内核。

·构造预测模型，进行预报控制。

在自然和社会科学领域的科研与生产中，探索多变量系统运动的客观规律及其与外部环境的关系，进行预测预报，以实现对系统的最优控制，是应用多元统计分析技术的主要目的。

在多元分析中，用于预报控制的模型有两大类。

一类是预测预报模型，通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。

另一类是描述性模型，通常采用聚类分析的建模技术。

·进行数值分类，构造分类模式。

在多变量系统的分析中，往往需要将系统性质相似的事物或现象归为一类。

以便找出它们之间的联系和内在规律性。

过去许多研究多是按单因素进行定性处理，以致处理结果反映不出系统的总的特征。

进行数值分类，构造分类模式一般采用聚类分析和判别分析技术。

如何选择适当的方法来解决实际问题，需要对问题进行综合考虑。

对一个问题可以综合运用多种统计方法进行分析。

例如一个预报模型的建立，可先根据有关生物学、生态学原理，确定理论模型和试验设计；根据试验结果，收集试验资料；对资料进行初步提炼；然后应用统计分析方法（如相关分析、逐步回归分析、主成分分析等）研究各个变量之间的相关性，选择最佳的变量子集合；在此基础上构造预报模型，最后对模型进行诊断和优化处理，并应用于生产实际。

第五篇：

材料成分分析材料成分分析

成分分析通过精密测试仪器，能提供材料全方位的质量表征、性能评价和机理分析。

服务领域涉及电子、通讯、机械、化工、生物、钟表、五金、灯饰、家具、工艺礼品等行业、企业及相关产品、各类研发中心开展材料表面技术科研和产品开发提供分析检测服务。

信标检测分析技术服务中心承接各种材料和产品（金属、非金属、聚合物和生物材料）的性能检测，进行材料的定性定量分析、组织结构分析、化学成分分析、表面及微区的形貌、力学性质及物化性能等多项测试，综合利用化学分析、热分析、元素分析、光谱分析、色谱分析五大分析方法。

可高效、准确还原材料组成、分析材料配方，大大缩短材料研发、上市周期，节省材料研发成本。

成分分析实验仪器

实验室配备对未知物进行剖析鉴定的国际先进仪器设备

展开阅读全文