SPSS数据的主成分分析3.ppt

资源描述

SPSS数据的主成分分析3.ppt

《SPSS数据的主成分分析3.ppt》由会员分享，可在线阅读，更多相关《SPSS数据的主成分分析3.ppt（68页珍藏版）》请在冰点文库上搜索。

SPSS数据的主成分分析3.ppt

zf,主成分分析（PrincipalComponentsAnalysis）,知识点,什么是主成分和主成分分析？

理解主成分分析的基本思想和几何意义？

理解并掌握基于协方差矩阵或相关系数矩阵求解主成分？

如何确定主成分个数？

如何解释主成分？

掌握运用SPSS软件求解主成分对软件输出结果进行正确分析,zf,2zf,蒋亮，罗汉我国东西部城市经济实力比较的主成分分析，经济数学，2003年3期田波平等主成分分析在中国上市公司综合评价中的作用，数学的实践与认识，2004年4期江冬明主成份分析在证券市场个股评析中的应用，数理统计与管理，2001年3期,主成分分析在综合评价中的应用：

zf,3zf,陈耀辉，景睿沪深股市市场收益率成因的主成份分析，南京航空航天大学学报，2000年2期。

主成分用于成因分析：

zf,4zf,王冬：

我国外汇储备增长因素主成分分析，北京工商大学学报（社会科学版），2006年4期。

主成分回归分析：

主成分用于判别分析等统计方法中,zf,5zf,多个指标的问题:

1、指标与指标可能存在相关关系信息重叠，分析偏误2、指标太多，增加问题的复杂性和分析难度如何避免？

zf,6zf,主成分分析的基本思想,一项十分著名的工作是美国的统计学家斯通（stone）在1947年关于国民经济的研究。

他曾利用美国1929一1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。

在进行主成分分析后，竟以97.4的精度，用三新变量就取代了原17个变量。

根据经济学知识，斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。

zf,7zf,更有意思的是，这三个变量其实都是可以直接测量的。

斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析，得到下表：

zf,8zf,主成分分析：

将原来具有相关关系的多个指标简化为少数几个新的综合指标的多元统计方法。

主成分：

由原始指标综合形成的几个新指标。

依据主成分所含信息量的大小成为第一主成分，第二主成分等等。

主成分与原始变量之间的关系：

（1）主成分保留了原始变量绝大多数信息。

（2）主成分的个数大大少于原始变量的数目。

（3）各个主成分之间互不相关。

（4）每个主成分都是原始变量的线性组合。

zf,9zf,主成分分析通常的做法：

寻求原指标的线性组合Fi。

数学模型主成分表达式,zf,10zf,假设有n个样品，每个样品有两个观测变量xl和x2，在由变量xl和x2所确定的二维平面中，n个样本点所散布的情况如椭圆状。

如图所示：

几何解释坐标旋转变换,平移、旋转坐标轴,zf,11zf,平移、旋转坐标轴,zf,12zf,平移、旋转坐标轴,zf,13zf,由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都具有较大的离散性，其离散的程度可以分别用观测变量xl的方差和x2的方差定量地表示。

显然，如果只考虑xl和x2中的任何一个，那么包含在原始数据中的经济信息将会有较大的损失。

如果我们将xl轴和x2轴先平移，再同时按逆时针方向旋转角度，得到新坐标轴Fl和F2。

Fl和F2是两个新变量。

Fl轴方向上的离散程度最大，即Fl的方差最大。

说明变量Fl代表了原始数据的绝大部分信息，即使不考虑变量F2也无损大局。

zf,14zf,旋转变换的目的：

将原始数据的大部分信息集中到Fl轴上，对数据中包含的信息起到了浓缩作用。

主成分分析的几何意义：

主成分分析的过程也就是坐标旋转的过程，各主成分表达式就是新坐标系与原坐标系的转换关系，新坐标系中各坐标轴的方向就是原始数据方差最大的方向。

其优点：

（1）可达到简化数据结构的目的。

（2）新产生的综合变量Fl，F2具有不相关的性质，从而避免了信息重叠所带来的虚假性。

zf,15zf,了解了主成分分析的基本思想、数学和几何意义后，问题的关键：

1、如何求解主成分？

2、如何确定主成分个数？

3、如何解释主成分所包含的经济意义？

zf,16zf,如何求解主成分？

（1）基于协方差矩阵求解主成分,假设有n个样本，每个样本有p个观测变量。

运用主成分分析构造以下p个主成分关于原始变量的线性组合模型:

zf,17zf,假设p个原始变量的协方差阵为:

对角线外的元素不为0意味着：

原始变量之间有相关关系,zf,18zf,如何运用主成分分析将这些具有相关关系的变量转化为没有相关关系的新变量（主成分）呢？

新变量（即主成分）之间没有相关关系，其协方差阵为对角矩阵：

对角线上的元素1、2p分别为第一、二第p个主成分方差；同时也是原始变量协方差阵的特征根,主成分表达式的系数项即是1、2p的特征向量,zf,19zf,1、主成分的协方差阵为对角矩阵；2、3、4、第j个主成分的方差贡献为:

主成分包含了原始变量的所有信息,协方差矩阵求解中主成分的性质,该比率为第j个主成分方差与原始变量的总方差之比。

zf,20zf,k个主成分的累积方差贡献率为：

累积方差贡献率越接近1，表示k个主成分包含原始变量的信息越多。

5.主成分载荷：

6.主成分Fj与原始变量Xi相关系数的平方:

（1）可看作为第j个主成分可解释Xi多少比率的信息

（2）可看作为Xi在第j个主成分中的相对重要性,zf,21zf,主成分的求解

（2）基于相关系数矩阵求解主成分,假设p个原始变量的相关系数矩阵阵为:

注意

（1）:

相关系数矩阵可看作原始变量协方差阵的标准化形式，即：

原始变量标准化的协方差矩阵。

注意

（2）:

运用主成分分析法时，若原始变量量纲不一致时，需对变量进行标准化处理基于协方差阵求解主成分；若不标准化则基于相关系数矩阵求解主成分。

对角线外元素不全为0：

原始变量间有相关关系,zf,22zf,转化形成的没有相关关系的新变量（即主成分）的协方差阵为对角矩阵：

对角线上的元素1、2p分别为第一、二第p个主成分方差；同时也是原始变量相关系数矩阵的特征根,主成分表达式的系数项即是1、2p的特征向量,zf,23zf,相关系数矩阵求解中主成分的性质,1、主成分的协方差矩阵为对角阵.2.3、4、第k个主成分的方差贡献率为：

前k个主成分的累积方差贡献率为：

5、主成分载荷：

6、主成分载荷的平方：

在解释第j个主成分的意义上起着重要作用,

（1）可看作为第j个主成分可解释Xi多少比率的信息（或：

Xi的信息有多少可被第j个主成分解释）；

（2）可看作为Xi在第j个主成分中的相对重要性。

zf,24zf,主成分个数的确定,累积方差贡献率（Cumulativevarianceexplainedbycomponents）:

通常要求累积方差贡献率达到85%以上来确定主成分个数。

特征根（eigenvalue）：

根据特征根来确定；数据标准化情况下：

碎石图（Screeplot）：

依据特征值的变化来确定，即特征值变化趋势图由陡坡变为平坦的转折点即为主成分选择的最佳个数。

zf,25zf,主成分的解释,运用主成分载荷解释主成分：

陈耀辉，景睿沪深股市市场收益率成因的主成份分析，南京航空航天大学学报，2000年2期。

蒋亮，罗汉我国东西部城市经济实力比较的主成分分析，经济数学，2003年3期。

运用主成分得分系数矩阵解释主成分：

王冬我国外汇储备增长因素主成分分析，北京工商大学学报，2006年4期。

田波平等主成分分析在中国上市公司综合评价中的作用，数学的实践与认识，2004年4期,zf,26zf,基于相关系数矩阵的主成分分析。

对美国纽约上市的有关化学产业的三支股票（AlliedChemical,duPont,UnionCarbide）和石油产业的2支股票（ExxonandTexaco）做了100周的收益率调查（1975年1月1976年10月）。

1）利用相关系数矩阵做主成分分析。

2）决定要保留的主成分个数，并解释意义。

主成分解释的案例分析,zf,27zf,

（1）相关系数矩阵：

运用主成分分析法进行分析得到以下结果：

zf,28zf,

（2）相关系数矩阵的特征根：

EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN12.856712.047550.5713420.57134PRIN20.809160.269490.1618330.73317PRIN30.539680.088180.1079350.84111PRIN40.451500.108550.0903000.93141PRIN50.34295.0.0685901.00000（3）特征根所对应的特征向量：

EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.463605-.240339-.6117050.386635-.451262X20.457108-.5093050.1781890.2064740.676223X30.470176-.2604480.335056-.662445-.400007X40.4214590.5256650.5407630.472006-.175599X50.4212240.581970-.435176-.3824390.385024,zf,29zf,（4）前两大主成分的累积方差贡献率：

（5）前两大主成分的表达式：

zf,30zf,（6）碎石图：

zf,31zf,主成分的解释：

1、第一大主成分PRIN1几乎是5只股票的等权平均；可将它看做股票收益率的“市场影响因素”（marketcomponent）2、第二大主成分PRIN2系数在AC,DP,UC（chemicalstocks）等3只股票上表现为负，而在EX,TE（oilstocks）等两只股票的系数表现为正；可将它看作为股票收益率的“行业影响因素”（industrycomponent）,zf,32zf,主成分分析步骤及框图,主成分分析步骤：

1.根据研究问题选取初始分析变量；2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分；3.求协差阵或相关阵的特征根与相应标准特征向量；4.判断是否存在明显的多重共线性，若存在，则回到第一步；5.得到主成分的表达式并确定主成分个数，选取主成分；6.结合主成分对研究问题进行分析并深入研究。

zf,33zf,主成分分析框图：

zf,34zf,主成分分析的上机实现SPSS操作,1、analyze-descriptionstatistic-description-savestandardizedasvariables（若需要数据标准化，则进行该操作，一般在主成分分析过程中软件已自动进行了此操作）2、analyze-datareduction-Factor3、指定参与分析的变量4、运行factor过程,zf,35zf,案例1:

某分析师试图对汽车销量进行预测，选择了汽车品牌、汽车外观、油耗等10个变量作为影响变量（即自变量）（见数据car_sales.sav）。

但是，这些影响变量之间存在相关关系，分析师担心直接进行回归预测会引起分析结果偏误。

分析师首先对10个影响变量进行主成分分析，将其转化少数几个无相关关系的新变量。

（1）可用新变量与销量进行回归预测

（2）依据新变量，对各品牌汽车进行评价,zf,36zf,（01）选择分析变量选SPSS分析Analyze菜单中的（降维DataReduction）（Factor）,出现【因子分析FactorAnalysis】对话框；在【因子FactorAnalysis】对话框中左边的原始变量中，选择将进行因子分析的变量选入（变量Variables）栏。

zf,37zf,（02）设置描述性统计量在【FactorAnalysis】框中选【描述Descriptives】按钮，出现【描述统计Descriptives】对话框；选择原始分析结果Initialsolution选项选择系数Coefficients选项点击（继续Contiue）按钮确定。

显示相关系数矩阵：

检验原始变量有无相关关系,显示共同度表，反映每个原始变量的信息有多少被新变量提取了,zf,38zf,zf,39zf,主成分分析前提条件相关性分析：

分析方法主要有：

1）计算相关系数矩阵（correlationcoefficientsmatrix）如果相关系数矩阵中的大部分相关系数值均小于0.3，即各变量间大多为弱相关，原则上这些变量不适合进行因子分析。

2）计算反映象相关矩阵（Anti-imagecorrelationmatrix）如果其主对角线外的元素大多绝对值较小，对角线上的元素值较接近1，则说明这些变量的相关性较强，适合进行因子分析。

zf,40zf,其中主对角线上的元素为某变量的MSA（MeasureofSampleAdequacy）：

是变量和变量（）间的简单相关系数；是变量和变量（）在控制了其他变量影响下的偏相关系数，即净相关系数。

取值在0和1之间，越接近1，意味着变量与其他变量间的相关性越强，越接近0则相关性越弱。

zf,41zf,3）巴特利特球度检验（Bartletttestofsphericity）该检验以原有变量的相关系数矩阵为出发点，其零假设H0是：

相关系数矩阵为单位矩阵，即相关系数矩阵主对角元素均为1，非主对角元素均为0。

（即原始变量之间无相关关系）。

依据相关系数矩阵的行列式计算可得其近似服从卡方分布。

如果统计量卡方值较大且对应的sig值小于给定的显著性水平a时，零假设不成立。

即说明相关系数矩阵不太可能是单位矩阵，变量之间存在相关关系，适合做因子分析。

zf,42zf,4）KMO（Kaiser-Meyer-Olkin）检验KMO检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标，数学定义为：

KMO与MSA区别是它将相关系数矩阵中的所有元素都加入到了平方和计算中。

KMO值越接近1，意味着变量间的相关性越强，原有变量适合做因子分析；越接近0，意味变量间的相关性越弱，越不适合作因子分析。

Kaiser给出的KMO度量标准：

0.9以上非常适合；0.8表示适合；0.7表示一般；0.6表示不太适合；0.5以下表示极不适合。

zf,43zf,（03）设置对主成分或因子的提取选项在【因子分析FactorAnalysis】框中点击【抽取Extraction】按钮,出现【因子分析：

抽取FactorAnalysis:

Extraction】对话框；在方法Method栏中选择（主成分Principalcomponents）选项；在分析Analyze栏中选择相关性矩阵Correlationmatrix选项（基于相关系数求解主成分）；在输出Display栏中选择未旋转的因子解Unrotatedfactorsolution选项（主成分载荷矩阵）；在抽取Extract栏中选择基于特征根Eigenvaluesover并填上1（依据特征根大于1的原则提取主成分）；点击（继续Continue）按钮确定，回到【因子分析FactorAnalysis】对话框中。

zf,44zf,zf,45zf,（04）设置主成分得分（或因子得分）在【因子分析FactorAnalysis】对话框中，点击【得分Scores】按钮，出现【因子分析：

因子得分FactorAnalysis:

Scores对话框。

选择保存为变量saveasvariable（将新变量得分值保存到数据文件）。

选择displayfactorscorecoefficientmatrix（显示主成分表达式的系数矩阵）点击（继续Contiue）按钮确定，回到【因子分析FactorAnalysis】对话框。

zf,46zf,zf,47zf,（05）设置主成分分析（或因子分析）的选项在【因子分析FactorAnalysis】对话框中，单击【选项Options】按钮，出现【因子分析：

选项FactorAnalysis:

Options对话框。

缺失值MissingValues栏中的Excludecaseslistwise按列表排除个案CoefficientDisplayFormat（系数显示格式）中的按大小排序Sortedbysize表示依据主成分（因子）载荷量排序；“取消小系数Suppressabsolutevalueslessthan”，默认为0.1；表示列示所有载荷量大于0.1的载荷系数。

zf,48zf,zf,49zf,分析结果：

1.描述性统计均值、标准差等的描述,DescriptiveStatistics,zf,50zf,2.相关系数矩阵描述原始变量之间是否存在相关关系,相关系数矩阵众对角线外的元素不全为0，而且很多的相关系数大于0.5，这表明原始变量之间有相关关系，适合进行主成分分析。

zf,51zf,3.共同度表,Communalities,ExtractionMethod:

PrincipalComponentAnalysis.,Communalities（共同度）：

每个原始变量的变异（信息）有多少可被主成分解释.Initial：

每个原始变量的变异（信息）有多少可被所有的主成分解释。

基于相关系数进行分析时，该值都为1。

Extraction：

每个原始变量的信息有多少被提取的主成分给提取了。

（提取的主成分包含了每个原始变量的信息多少）,如果共同度中extraction值越高，这意味着提取的主成分能很好的代表原始变量。

如果extraction值很低，我们则需要再提取一个或多个主成分,0.930，0.876分别代表原始变量vehicletype和price等有93%和87.6%被我们提取的主成分提取了。

基于协方差进行分析时，每个变量的Initial又是如何呢?

zf,52zf,4.碎石图（陡坡检查）除去坡线平坦部分的主成分（因子）图中第三个因子以后较为平坦，故保留3个因子,碎石图有助于我们确定最优的主成分个数。

横轴代表第几主成分，纵轴代表相应主成分的特征值（方差）。

通常，提取碎石图较为陡峭部分的主成分；斜坡处的主成分的方差贡献较小，不考虑，原始变量的信息遗漏也较少。

陡坡与斜坡的转折点在第3和第4主成分之间，从第4至第10主成分的方差很小且差别不大，所以该例提取3个主成分较为合适。

zf,53zf,5.方差贡献率表取特征值大于1的因子，共有3个，分别（5.994）（1.654）（1.123）;方差贡献率分别为（59.94%）（16.54%）（11.23%）,Totalvarianceexplained,ExtractionMethod:

PrincipalComponentAnalysis.,Total这栏给出的是特征根，即每个主成分的方差（或者说，所有原始变量的信息有多少落到各个主成分上去）.%ofVariance这栏代表主成分的方差贡献率，即每个主成分方差占原始变量总方差的比率.Cumulative%这栏代表累积方差贡献率，即为前n个主成分的方差贡献率之和。

如累积贡献率76.482%=第一主成分的方差贡献59.938%+第二主成分的方差贡献16.545.,原始变量有10个，提取了10个主成分，且10个主成分的方差之和=10个原始变量的方差之和；依据特征根大于1，我们提取了3个主成分。

zf,54zf,6.主成分（因子载荷）矩阵表,ComponentMatrix（a）,ExtractionMethod:

PrincipalComponentAnalysis.a3componentsextracted.,主成分载荷矩阵表主要反映原始变量和主成分的相关关系，有助于我们进行主成分的解释。

.其中：

第一主成分与Enginesize,Horsepower,Wheelbase,width,length,curbweight,Fuelcapacity,Fuelefficiency等高度相关.第二主成分与Priceinthousands高度相关.第三主成分与Vehicletype高度相关.,从该表我们也可看到原始变量的信息如何被各个主成分提取的。

如：

Var（Vehicletype*）=0.4712+0.5332+（-0.651）2Var（Fuelefficiency*）=（-0.863）2+0.0042+0.3392,根据该表我们可写出因子分析模型:

Vehicletype*=0.471f1+0.533f2-0.651f3Fuelefficiency*=-0.863f1+0.004f2-0.339f3,从该表也可得到每个主成分方差是如何从各原始变量中提取的:

Var（f1）=0.4712+0.5802+0.8712+.+（-0.863）2Var（f2）=0.5332+（-0.729）2+（-0.290）2+（0.004）2Var（f3）=（-0.651）2+（-0.092）2+0.0182+（0.339）2,zf,55zf,7.主成分（因子）得分系数表,ComponentScoreCoefficientMatrix,ExtractionMethod:

PrincipalComponentAnalysis.,依据该表，我们可写出主成分分析模型:

f1*=0.079Vehicletype*+0.097Price*+0.145Enginesize*+-0.144Fuelefficiency*.,每个样本的原始变量信息带入以上模型，我们则可得到每个样本:

f1*,f2*,f3*的取值。

依据该取值我们可评价哪些品牌汽车在外观及油耗性能（f1*）上占优或处于劣势；哪些在f2*（汽车价位）上占优或处于劣势；，要提升各品牌汽车应从何着手。

综合f1*,f2*,f3*的信息对各种品牌汽车的进行综合评价，依据各主成分的方差贡献产生新变量：

f=0.5999f1*+0.165f2*+0.112f3*,zf,56zf,8.主成分（因子）得分协方差矩阵,ComponentScoreCovarianceMatrix,ExtractionMethod:

PrincipalComponentAnalysis.,该矩阵为单位阵，意味着主成分之间互不相关。

zf,57zf,以上例子是采用基于相关系数求解主成分，试用协方差矩阵求解，结果如何？

由协方差矩阵或相关系数矩阵求解主成分结果一致吗？

应如何选择？

zf,58zf,主成分分析求解应注意的问题：

1、由协方差矩阵出发求解主成分所得的结果与由相关系数矩阵求解主成分所得结果有很大不同：

所得的主成分的方差贡献率与主成分表达式均有显著差别。

（1）一般而言，对于度量单位不同的指标或是取值范围彼此差异非常大的指标，不直接由其协方差矩阵进行主成分分析，而应该考虑将数据标准化。

（若不标准化，则基于相关系数矩阵进行主成分分析）例：

对上市公司的财务状况进行分析时，常常涉及利润总额、市盈率、每股净利率等。

其中利润总额取值常在几十万到上百万或千万，市盈率一般取值在五到六七十之间，而每股净利率在1以下，不同指标取值范围相差很大，若直接用协方差矩阵进行主成分分析，利润总额的作用将起重要支配作用，而其他两个指标的作用很难在主成分中体现出来，此时应该考虑对数据进行标准化处理。

zf,59zf,

（2）对同度量或是取值范围在同量级的数据，还是直接从协方差矩阵求解主成分为宜。

因为：

对数据标准化的过程实际上也就是抹杀原始变量离散程度差异的过程，标准化后的各变量方差相等均为1，而方差是数据信息的重要概括形式。

数据标准化后抹杀了一部分重要信息，使得标准化后各变量在对主成分构成中的作用趋于相等。

对于采用何种方法求解主成分没有定论。

在实际研究中，从不同角度求解并研究其结果的差别以及产生差别的原因，以确定哪种结果更为可信。

zf,60zf,2、主成分是有效剔除了原始变量中的重叠信息，还是按原来的模式将原始信息中的

展开阅读全文