整理SPSS统计分析及统计图表的绘制指导书.docx

资源描述

整理SPSS统计分析及统计图表的绘制指导书.docx

《整理SPSS统计分析及统计图表的绘制指导书.docx》由会员分享，可在线阅读，更多相关《整理SPSS统计分析及统计图表的绘制指导书.docx（17页珍藏版）》请在冰点文库上搜索。

整理SPSS统计分析及统计图表的绘制指导书.docx

整理SPSS统计分析及统计图表的绘制指导书

实验三SPSS统计分析及统计图表的绘制

一、实验目的

要求学生能够进行基本的统计分析；能够对频数分析、描述分析和探索分析的结果进行解读；完成基本的统计图表的绘制；并能够对统计图表进行编辑美化及结果分析；能够理解多元统计分析的操作（聚类分析和因子分析）。

二、实验内容与步骤

2.1基本的统计分析

打开“分析/描述统计”菜单，可以看到以下几种常用的基本描述统计分析方法：

1.Frequencies过程（频数分析）

频数分析可以考察不同的数据出现的频数及频率，并且可以计算一系列的统计指标，包括百分位值、均值、中位数、众数、合计、偏度、峰度、标准差、方差、全距、最大值、最小值、均值的标准误等。

2.Descriptives过程（描述分析）

调用此过程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，包括：

均值、合计、标准差、方差、全距、最大值、最小值、均值的标准误、峰度、偏度等。

3.Explore过程（探索分析）

调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索性统计。

它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。

Descriptives：

输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误；

ConfidenceIntervalforMean：

平均值的%估计；

M-estimators：

作中心趋势的粗略最大似然确定，输出四个不同权重的最大似然确定数；

Outliers：

输出五个最大值与五个最小值；

Percentiles：

输出第5%、10%、25%、50%、75%、90%、95%位数。

4.Crosstabs过程（列联表分析）

调用此过程可进行计数资料和某些等级资料的列联表分析，在分析中，可对二维至n维列联表（RC表）资料进行统计描述和χ2检验，并计算相应的百分数指标。

此外，还可计算四格表确切概率（Fisher’sExactTest）且有单双侧（One-Tail、Two-Tail），对数似然比检验（LikelihoodRatio）以及线性关系的Mantel-Haenszelχ2检验。

2.2基本统计分析结果解读

1.频率分析的结果解读

图1频率分析的结果解读

（附中英文对照，具体详见电子版Excel文件）

2.描述分析的结果解读（同上，略）

3.探索分析的结果解读

图2探索分析的结果解读

（附中英文对照，具体详见电子版Excel文件）

4.列联表分析的结果解读

2.3统计图表的绘制

表2一般统计图表

1.条形图（Bar）

图3条形图定义选项框

Summariesforgroupsofcases：

以组为单位体现数据；

Summariesofseparatevariables：

以变量为单位体现数据；

Valuesofindividualcases：

以观察样例为单位体现数据。

多数情形下，统计图都是以组为单位的形式来体现数据的。

在定义选项框的上方有3种直条图可选：

Simple为单一直条图、Clustered为复式直条图、Stacked为堆积式直条图。

2.直方图（Histogram）

条形图用来绘制离散型单一类别变量的分布情况，描述连续性数据的分布情况则用直方图。

3.方盒图（Boxplot）

箱图可用于表现观测数据的中位数、四分位数和两头极端值。

中间的粗线为中位数，灰色的箱体为四分位（箱体下端为第二十五百分位数、上端为第七十五百分位数），两头伸出的线条表现极端值（下边为最小值、上边为最大值）。

“*”表示极度偏离值，“゜”表示轻度偏离值。

4.散点图（Scatter/Dot）

散点图用于表现测量数据的原始分布状况，读者可从点的位置判断测量值的高低、大小、变动趋势或变化范围。

图4散点图定义选项框

Simple为单层散点图，Overlay为多层散点图，Matrix为矩阵散点图，3-D为立体散点图。

5.饼图（略）

2.4统计图表的美化和编辑

统计图绘制好以后，可以双击统计图进行图表的各种美化和编辑。

此部分同学们自己练习。

2.5多元统计分析（了解）

2.5.1聚类分析（Analyze/Classify）

1.基本概念

聚类分析是根据事物本身的特性研究个体分类的方法，目的在于将相似的事物归类。

聚类分析的原则是同一类中的个体有较大的相似性，不同类中的个体差异很大。

根据分类对象的不同，可将聚类分析分为样品（观测量）聚类（Q型聚类）和变量聚类（R型聚类）两种：

（1）Q型聚类。

对观测量（Case）进行聚类（不同的目的选用不同的指标作为分类的依据，如选拔运动员与分课外活动小组）

（2）R型聚类。

找出彼此独立且有代表性的自变量，而又不丢失大部分信息。

在生产活动中不乏有变量聚类的实例，如：

衣服号码（身长、胸围、裤长、腰围）、鞋的号码。

变量聚类使批量生产成为可能。

2.聚类分析法在市场研究中的作用

（1）细分市场

（2）市场机会研究

（3）消费者心理和行为研究

（4）实验市场的选择

（5）设计抽样方案

（6）作为多元分析的预处理

3.样本间的相似性或距离测度

为了得到比较合理的分类，首先要采用适当的指标来定量地描述研究对象（样本或变量，通常是变量）之间的联系的紧密程度，常用的指标有“距离”和“相似系数”。

常用的5种距离和1种相似系数：

①欧式距离（Euclideandistance）；②欧式距离的平方（SquaredEuclideandistance）；③绝对值距离（Block）；④切比雪夫距离（Chebychevdistance）；⑤幂距离（PowerorCustomizeddistance）；⑥余弦系数（Cosine）。

4.常用的系统聚类法

（1）最短距离法（Nearestneighbor）

（2）最长距离法（Furthestneighbor）

（3）中间距离法（Medinaneighbor）

（4）沃德法（Ward’smethod）

（5）重心法（Centroidclustering）

（6）类间平均连接（Between-grouplinkage）

（7）类内平均连接（Within-groupLinkage）

5.SPSS进行聚类分析（Analyze/Classify）

（1）Statistics选项：

Agglomerationschedule：

凝聚状态表。

显示聚类过程的每一步合并的类或样品、被合并的类或样品之间的距离以及样品或加入到一类的类水平。

Proximitymatrix：

相变量似矩阵。

给出各类之间的距离或相似测度值。

ClusterMembership：

类成员。

显示每个样品被分配到的类或显示若干步凝聚过程。

具体内容有三个选项：

①None：

不显示类成员表，是默认值；②Singlesolution:

要求列出聚为一定类数的各样品所属的类；③Rangeofsolutions：

要求列出某个范围中每一步各样品所属的类。

（2）Plot选项

Dendrogram：

树形图。

Icicle：

冰柱图。

（3）Method选项

Cluster：

聚类方法选择。

Measure：

对距离和相似系数的不同测量方法。

TransformValues：

转换数值的方法，标准化方法。

TransformMeasures：

测度的转换方法。

（4）实例演示

①一维集群分析（按年龄集群）

②促销市场的选择

③各省份根据产业结构、水平分类

（5）聚类要注意的问题

①聚类结果主要受所选择的变量影响。

如果去掉一些变量，或者增加一些变量，结果会很不同。

②相比之下，聚类方法的选择则不那么重要了。

因此，聚类之前一定要目标明确。

③另外就分成多少类来说，也要有道理。

只要你高兴，从分层聚类的计算机结果可以得到任何可能数量的类。

但是，聚类的目的是要使各类距离尽可能的远，而类中点的距离尽可能的近，而且分类结果还要有令人信服的解释。

这一点就不是数学可以解决的了。

2.5.2判别分析（Analyze/Classify/Discriminate）

1.基本概念

判别分析研究方法是根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。

与聚类分析有所不同的是：

判别分析法首先需要对所研究对象进行分类，进一步选择若干对观测对象能够较全面地描述的变量，建立判别函数。

对一个未确定类别的样本只要将其代入判别函数就可以判断它属于哪一类总体。

2.判别分析实例

数据team.sav为李宁杯拉拉队竞赛评审裁判为15个参赛学校根据组织、气氛、领导三要素，将team分为高、中、低效能。

其中评价的指标为组织、凝聚力和领导三个变量；我们希望根据这些team的上述变量的打分和它们已知的组别（三个组别：

1—代表高效能，2—代表中效能，3—代表低效能）找出一个分类标准，以对折15个team以外的team进行分类。

该数据有15个team（15个观测值），其中4个属于高效能，6个属于中效能，5个属于低效能，这个数据就是一个“训练样本”。

（1）根据距离的判别（不用投影）

数据有3个用来建立判别标准（或判别函数）的（预测）变量，另一个是组别。

因此每一个team的打分在这3个变量所构成的3维空间中是一个点。

这个数据有15个点，由于已经知道所有点的类别了，所以可以求得每个类型的中心。

这样只要定义了如何计算距离，就可以得到任何给定的点（team）到这三个中心的三个距离。

显然，最简单的办法就是离哪个中心距离最近，就属于哪一类。

通常使用的距离是所谓的Mahalanobis距离。

用来比较到各个中心距离的数学函数称为判别函数（discriminantfunction），这种根据远近判别的方法，原理简单，直观易懂。

（2）Fisher判别法（先进行投影）

所谓Fisher判别法，就是一种先投影的方法。

考虑只有两个（预测）变量的判别分析问题。

假定这里只有两类。

数据中的每个观测值是二维空间的一个点。

这里只有两种已知类型的训练样本。

其中一类有38个点（用“o”表示），另一类有44个点（用“*”表示）。

按照原来的变量（横坐标和纵坐标），很难将这两种点分开。

于是就寻找一个方向，也就是图上的虚线方向，沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。

可以看出，如果向其他方向投影，判别效果不会比这个好。

有了投影之后，再用前面讲到的距离远近的方法来得到判别准则。

这种首先进行投影的判别方法就是Fisher判别法。

（3）逐步判别法（仅仅是在前面的方法中加入变量选择的功能）

有时，一些变量对于判别并没有什么作用，为了得到对判别最合适的变量，可以使用逐步判别。

也就是，一边判别，一边引进判别能力最强的变量，这个过程可以有进有出。

一个变量的判别能力的判断方法有很多种，主要利用各种检验，例如Wilks’Lambda、Rao’sV、TheSquaredMahalanobisDistance、SmallestFratio或TheSumofUnexplainedVariations等检验。

其细节这里就不赘述了；这些不同方法可由统计软件的各种选项来实现。

逐步判别的其他方面和前面的无异。

（4）实例操作

①Indepentents：

选择自变量和使用自变量的方法

对于选定的自变量可以全部应用到判别函数中去，这是系统默认的使用全部自变量法“Enterindependenttogether”。

如果要对变量进行筛选检验，将使用选项逐步进入法“Usestepwisemethod”。

使用该方法后，按钮“Methord”将被激活，

在窗口中可以进一步定义使用哪一种逐步进入法：

“Wilks'lamda”法为系统默认的方法；“Unexplainedvariance”不解释方差法；“Mahalamobis'distance”马哈拉莫比斯距离法；“SmallestFratio”最小F比率法；“Rao'sV”劳氏增值法。

②Statistiacs：

统计量、矩阵和函数系数的计算

“Descriptives”中的选项有三个：

“Means”为计算各个自变量的平均值和标准差以及各个类别中的平均值和标准差；“UnivariateANOVA”计算各类中同一个自变量的一元方差分析；“Box'sM”计算各类的协方差矩阵，并进行协方差分析。

“Matrices”计算相关矩阵或协方差矩阵：

“Within-groupscorrelation”计算组内相关矩阵；“Within-groupscovariance”计算组内协方差矩阵；“Separate-groupscovariance”计算分组协方差矩阵；“Totalcovariance”计算总体协方差矩阵。

“FunctionCoefficients”计算判别函数的系数：

”Fisher's”计算可以用于对新样本进行判别并分类的费氏系数；”Unstandardized”计算非标准化判别系数，可用于计算判别分类。

③Classify：

分类方式和判别结果

设置分类所依据的判别先验概率和协方差矩阵，以及输出图形和显示结果。

“PriorProbabilities”先验概率的设置指定，有两种方式：

“Allgroupsequal”各个类取相等的先验概率；“Computefromgroupsize”依据各个类的样本个数确定先验概率。

“Display”输出分析结果：

“Casewiseresults”输出各个样本的分类结果，其中有：

判别分、指定类和判别类和后验概率等；“Summarytable”输出分类摘要表，表中将标明：

与原指定类相同的判别类，该判别类是根据判别函数得到的，即正确类。

同时还标明与原指定类不同的判别类以及相应的概率；“Leave-one-outclassification”是一种交互检验。

“UseCovarianceMatrix”选择使用协方差矩阵：

“Within-groups”选择分析使用的组内协方差矩阵进行判别分析；“Separate-groups”选择分析使用的分组协方差矩阵进行判别分析。

④Plots：

统计图形的输出

“Combined-groups”将各个类的图形都存放在同一张图中。

“Separate-groups”分类显示各个类的图形。

“Territorialmap”分界图，将坐标平面划分为不同的区域，每个区域将代表一个类，落在该区域中的样本观测点就属于该区域所代表的类。

⑤Replacemissingvalueswithmean：

将缺失值用样本平均值代替。

⑥结果分析

CanonicalDiscriminantFunctionCoefficient：

典则判别函数。

将未归类的样本的变量值代入两个典则判别函数，算出两个数。

把这两个数目当成该样本的坐标，这样数据中的每个样本就是二维平面上的点。

ClassificationFunctionCoefficients：

分类函数系数表。

把每个观测点带入每类对应的函数，就可以得到分别代表各类的值，哪个值最大，该点就属于相应的那一类。

（5）判别分析的注意事项

①训练样本中必须有所有要判别的类型，分类必须清楚，不能有混杂。

②要选择好可能用于判别的预测变量。

这是最重要的一步。

当然，在应用中，选择的余地不见得有多大。

③要注意数据是否有不寻常的点或者模式存在。

还要看预测变量中是否有些不适宜的；这可以用单变量方差分析（ANOVA）和相关分析来验证。

④判别分析是为了正确地分类，但同时也要注意使用尽可能少的预测变量来达到这个目的。

使用较少的变量意味着节省资源和易于对结果进行解释。

2.5.3因子分析（Analyze/DataReduction/Factor）

1.基本概念

假定你是一个公司的财务经理，掌握了公司的所有数据，这包括众多的变量，如：

固定资产、流动资金、借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、分工和教育程度等等。

如果让你向上级或有关方面介绍公司状况，你能够把这些指标和数字都原封不动地摆出去吗？

在如此多的变量之中，有很多是相关的。

人们希望能够找出它们的少数“代表”来对它们进行描述。

需要把这种有很多变量的数据进行高度概括。

因子分析只是一种中间手段，其背景是研究中经常会遇到多指标的问题，这些指标间往往存在一定的相关，直接纳入分析不仅复杂，变量间难以取舍，而且可能因多元共线性而无法得出正确结论。

因子分析的目的就是通过线性变换，将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标，便于进一步分析。

2.因子分析模型

Xi=ai1f1+ai2f2+…+aimfm+ui

其中，f1，f2，…fm——公因子（Commonfactors）;

ui——特殊因子（Uniquefactor）；

aim——因载（Factorloading）。

3.有关概念

（1）因子负荷：

即表达式中各因子的系数值，用于反映因子和各个变量间的密切程度，其实质是两者间的相关系数

（2）公因子方差比（Communalities）：

指的是提取公因子后，各变量中信息分别被提取出的比例，或者说原变量的方差中由公因子决定的比例。

（3）特征根（Eigenvalue）：

可以被看成是主成分影响力度的指标，代表引入该因子/主成分后可以解释平均多少原始变量的信息。

4.SPSS操作

（1）Extraction：

因子提取方法

Principalcomponents：

主成分分析法（因子不用旋转）；

Unweightedleastsquares：

未加权最小平方法；

Generalizedleastsquares：

综合最小平方法；

Maximumlikelihood：

极大似然估计法；

Principalaxisfactoring：

主轴因子法；

Alphafactoring：

α因子法；

Imagefactoring：

多元回归法。

（2）Rotation：

因子旋转方法

None：

不作因子旋转；

Varimax：

正交旋转；

Equamax：

全体旋转，对变量和因子均作旋转；

Quartimax：

四分旋转，对变量作旋转；

DirectOblimin：

斜交旋转。

旋转的目的是为了获得简单结构，以帮助我们解释因子。

5.结果分析

6.注意事项

（1）因子分析和主成分分析都依赖于原始变量，也只能反映原始变量的信息。

所以原始变量的选择很重要。

2.辨识与分析危险、有害因素

（2）如果原始变量都本质上独立，那么降维就可能失败，这是因为很难把很多独立变量用少数综合的变量概括。

数据越相关，降维效果就越好。

（6）列出选定的评价方法，并作简单介绍。

三、主要仪器及耗材

计算机等。

大纲要求四、实验资料

《SPSSforwindows统计分析》（第三版），卢纹岱主编，电子工业出版社，2006

五、实验注意事项

此实验项目内容较多，需要同学们课上课下多多练习和体会，初次之外，想真正能运用得得心应手，还需要更多的统计学等方面知识的积累。

安全评价是落实“安全第一，预防为主，综合治理”方针的重要技术保障，是安全生产监督管理的重要手段。

六、思考题

请从SPSS软件系统中自带的或教师课堂提供的数据资料中任选一组数据，进行基本统计分析，绘制统计图表，并对结果进行简单的解析。

3）应用污染物排放标准时，依据项目所属行业、环境功能区、排放的污染物种类和环境影响评价文件的批准时间确定采用何种标准。

综合性排放标准与行业性排放标准不交叉执行，即：

有行业排放标准的执行行业排放标准，没有行业排放标准的执行综合排放标准。

（4）跟踪评价的结论。

（1）环境的使用价值。

环境的使用价值（UV）又称有用性价值，是指环境资源被生产者或消费者使用时，满足人们某种需要或偏好所表现出的价值，又分为直接使用价值、间接使用价值和选择价值。

Count

4）按执行性质分。

环境标准按执行性质分为强制性标准和推荐性标准。

环境质量标准和污染物排放标准以及法律、法规规定必须执行的其他标准属于强制性标准，强制性标准必须执行。

强制性标准以外的环境标准属于推荐性标准。

性别

男

女

（2）建设项目周围环境的现状。

收入水平

高

中

低

肥胖程度

超胖

大胖

小胖

展开阅读全文