spss17中文版统计分析典型实例精粹Word文件下载.docx

资源描述

spss17中文版统计分析典型实例精粹Word文件下载.docx

《spss17中文版统计分析典型实例精粹Word文件下载.docx》由会员分享，可在线阅读，更多相关《spss17中文版统计分析典型实例精粹Word文件下载.docx（52页珍藏版）》请在冰点文库上搜索。

spss17中文版统计分析典型实例精粹Word文件下载.docx

此外，如果众数的值出现的频数或频率较大，那么说明众数的代表性就越高，数列的集中趋势也就越显著。

确定众数没有明确的公式，一般只能用手工统计，故较为烦琐。

SPSS所提供的统计功能可以减少诸如此类烦琐的过程。

众数、中位数与算术平均数之间存在一定的关系，这种关系决定于总体分布的状况。

当总体分布呈对称的钟形分布时，算术平均数位于分布曲线的对称点上，而该点又是曲线的最高点和中心点，因此，众数、中位数和算术平均数三者相等。

当总体分布呈非对称的钟形分布时，由于这三种平均数受极端数值影响程度的不同，因而它们的数值就存在一定的差别，但三者之间仍有一定的关系。

当分布右偏时，算术平均数受偏高数值影响较大，其位置必然在众数之右，中位数在众数与算术平均数之间。

反之，当次数分布左偏时，算术平均数受偏小数值的影响较大，其位置在众数之左，中位数仍在众数与算术平均数之间。

以上的均值、中位数和众数都是反映数据集中趋势的统计量。

3.1.4全距（Range）

全距，又称极差，是数据的最大值（Maximum）与最小值（Minimum）之间的绝对差，借以表明总体标志值最大可能的差异范围。

全距越长，说明数据越离散；

反之，全距越小，说明数据越集中。

用符号表示全距的计算公式为：

全距的缺点在于其方法过于粗略，因为它只考虑总体两端数值的差异，没有考虑中间数值差异的情况，因而它是测定离散程度的一种粗略的方法，不能全面反映总体数据的差异程度。

要充分利用每一个数据的信息，就需要利用方差和标准差。

3.1.5方差（Variance）和标准差（StandardDeviation）

方差是总体所有变量值与其算术平均数偏差平方的平均值，它表示了一组数据分布的离散程度的平均值。

标准差是方差的平方根，它表示了一组数据关于平均数的平均离散程度。

其中，为总体平均数，为样本平均数，N为总体的个数，n为样本的个数。

虽然标准差有计量单位，而方差无计量单位，但两者的作用一样，故在此仅介绍标准差。

标准差用平方的方法消除了正负号，因而它是最常用、最重要的离散趋势统计量。

标准差越大，表示变量值之间的差异越大，各数据距离均值越远，则平均数的代表性就越低。

反之，标准差越小，表示变量值之间的差异越小，各数据距离均值较近，则平均数的代表性就越高。

标准差在实际生活中也有广泛的应用。

例如，可以用标准差来测定居民收入分配的差异程度，还可以用来反映平均收支、平均结余、平均产量等经济变量的代表性等。

全距、方差和标准差都是反映数据离散趋势的统计量。

3.1.6峰度（Kurtosis）和偏度（Skewness）

峰度是描述总体中所有取值分布形态陡缓程度的统计量。

这个统计量需要与正态分布相比较，峰度为0表示该总体数据分布与正态分布的陡缓程度相同；

峰度大于0表示该总体数据分布与正态分布相比较为陡峭，为尖顶峰；

峰度小于0表示该总体数据分布与正态分布相比较为平坦，为平顶峰。

峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

峰度的具体计算公式为：

偏度与峰度类似，它也是描述数据分布形态的统计量，其描述的是某总体取值分布的对称性。

这个统计量同样需要与正态分布相比较，偏度为0表示其数据分布形态与正态分布的偏斜程度相同；

偏度大于0表示其数据分布形态与正态分布相比为正偏或右偏，即有一条长尾巴拖在右边，数据右端有较多的极端值；

偏度小于0表示其数据分布形态与正态分布相比为负偏或左偏，即有一条长尾拖在左边，数据左端有较多的极端值。

偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

偏度的具体计算公式为：

3.1.7四分位数（Quartiles）、十分位数（Deciles）和百分位数（Percentiles）

四分位数是将一组数据由小到大（或由大到小）排序后，用3个点将全部数据分为4等份，与这3个点位置上相对应的数值称为四分位数，分别记为Q1（第一四分位数）、Q2（第二四分位数，即中位数）、Q3（第三四分位数）。

其中，Q3到Q1之间的距离的一半又称为四分位差，记为Q。

四分位差越小，说明中间部分的数据越集中；

四分位数越大，则意味着中间部分的数据越分散。

与四分位数类似，十分位数是将一组数据由小到大（或由大到小）排序后，用9个点将全部数据分为10等份，与这9个点位置上相对应的数值称为十分位数，分别记为D1，D2，……，D9，表示10%的数据落在D1下，20%的数据落在D2下，……，90%的数据落在D9下。

同理，百分位数是将一组数据由小到大（或由大到小）排序后分割为100等份，与99个分割点位置上相对应的数值称为百分位数，分别记为P1，P2，……，P99，表示1%的数据落在P1下，2%的数据落在P2下，……，99%的数据落在P99下。

通过四分位数、十分位数和百分位数，可以大体看出总体数据在哪个区间内更为集中，也就是说，它们在一定程度上可以反映数据的分布情况。

上面的峰度系数、偏度系数和四分位数、十分位数、百分位数，都是反映数据分布状况的统计量。

3.2数据描述

描述性统计分析是对数据进行基础性的描述。

通过得出的数据的平均值（Mean）、和（Sum）、标准差（Stddeviation）、最大值（Max）、最小值（Min）、方差（Variance）、全距（Range）、均值标准误差（S.E.Mean）、峰度（Kurtosis）、偏度（Skewness）等统计量，来估计原始数据的集中程度、离散状况和分布情况。

数据描述功能的操作步骤如下：

打开【分析】

（Analyze）菜单，选择【描述统计】

（DescriptiveStatistics）命令下的【描述】

（Descriptives）命令，如图3-1所示。

这里，需要提醒的是如果数据文件尚未打开，【分析】

（Analyze）菜单下的任一功能都不能使用，SPSS会弹出一个对话框，如图3-2所示，提醒用户打开文件。

打开文件后，【分析】

（Analyze）菜单下的统计功能才能正常使用。

选择【描述】

（Descriptives）命令后，SPSS将打开"

描述性"

（Descriptives）对话框，如图3-3所示。

在该主对话框中，用户可以通过单击按钮从左边原变量中选择一个或者几个变量进入右边的"

变量"

（Variable（s））列表框中。

对话框底部有一个"

将标准化得分另存为变量"

（Savestandardizedvaluesasvariables）复选框，选择该项，将对"

（Variable（s））列表框中被选中变量的数据进行标准化，然后将标准化的结果保存到新变量中。

新变量的变量名为原变量的变量名前面添加字母"

，并被添加在数据编辑窗口中变量的最后一列。

数据标准化的计算公式为：

通过标准化，可以将均值为、标准差为的原变量转化成均值为0、标准差为1的新变量。

（Descriptives）主对话框的下端有5个按钮，如果还未将左边原变量中的变量添加至"

（Variable（s））列表框中，则【确定】

（OK）和【粘贴】

（Paste）按钮为灰白显示，不可单击，但【重置】

（Reset）、【取消】

（Cancel）和【帮助】

（Help）按钮可以单击。

通过单击【重置】

（Reset）按钮，用户可以将已进入右框的变量全部转移至左框的变量列表中，重新进行选择。

单击【选项】

（Options）按钮，将打开"

描述：

选项"

（Descriptives：

Options）对话框，如图3-4所示。

在该对话框中，用户可以选择所要统计的统计量和图表输出方式。

具体对话框中各选项的意义如下：

（1）在对话框中最上面一行是均值（Mean）和合计（Sum）。

（2）离散（Dispersion）栏中的统计量包括：

标准差（StdDeviation）最小值（Minimum）

方差（Variance）最大值（Maximum）

范围（极差）（Range）均值的标准误（S.E.Mean）

（3）分布（Distribution）栏中的统计量包括：

峰度（Kurtosis）偏度（Skewness）

（4）显示顺序（DisplayOrder）栏中，用户可以自行选择输出变量的排序方式，包括：

变量列表（VariableList）：

在结果输出窗口中，用户选择输出的变量将按照变量在数据编辑窗口中原来的排列顺序进行排列。

字母顺序（Alphabetic）：

在结果输出窗口中，用户选择输出的变量将按照变量名的字母排列顺序进行排列。

按均值的升序排序（AscendingMeans）：

SPSS将计算每个输出变量的平均值，并按照平均值从小到大对输出变量的顺序进行排列。

按均值的降序排序（DescendingMeans）：

SPSS将计算每个输出变量的平均值，并按照平均值从大到小对输出变量的顺序进行排列。

用户可在"

（Options）对话框第一行、离散（Dispersion）栏和分布（Distribution）栏中，选中所需统计的统计量（可多项选择）。

SPSS默认的描述统计量包括均值、标准差、最小值、最大值。

在"

显示顺序"

（DisplayOrder）一栏里，用户只可选择一种变量排序方式，SPSS的默认选项为"

变量列表"

（VariableList）。

进行选择后，单击【继续】

（Continue）按钮，即可返回"

（Descriptives）主对话框。

单击【确定】

（OK）按钮，即可在结果输出窗口中得到描述性统计分析结果输出表格。

3.3频数分析

对于一组数据，考察不同的数值出现的频数，或者是数据落入指定区域内的频数，可以了解数据的分布状况。

从SPSS15.0开始就提供了"

频数分析"

这一功能。

通过频数分析，用户在得到描述性统计结果的同时，还能了解变量取值的分布情况，从而使总体数据的分布通过频数分析得到更为清晰、准确的输出。

频数分析的具体操作步骤如下：

打开数据文件，选择【分析】

（Analyze）菜单，单击【描述统计】

（DescriptiveStatistics）命令下的【频率】

（Frequencies）命令。

SPSS将弹出"

频率"

（Frequencies）主对话框，如图3-5所示。

在该主对话框中，同样可以通过单击按钮从左边的原变量中选择一个或者几个变量进入右边的"

对话框底部有一项"

显示频率表格"

（Displayfrequencytables）复选框，SPSS默认选择此项。

选择此项后，输出结果将显示频数分布表，否则只显示直方图，不显示频数分布表。

主对话框的右方有3个按钮，从上到下依次为【统计量】

（Statistics）按钮、【图表】

（Charts）按钮和【格式】

（Format）按钮。

单击可进入对应对话框。

单击【统计量】按钮，打开"

频率：

统计量"

（Frequencies：

Statistics）对话框，如图3-6所示。

在该对话框中，用户可以选择所要统计的统计量。

对话框中各选项的具体意义如下：

（1）百分位值（PercentileValues）栏为复选项，在此栏中可选择多项。

四分位数（Quartile）

割点（Cutpoints）：

选择此项，在后面的文本框中输入数值，假设为N（N为在2100之间的整数），则计算并显示N分位数。

百分位数（Percentile（s））：

选择此项，在后面的文本框中输入数值，可以有选择地显示百分位数。

在文本框中可以输入0到100之间的数，输入后，单击【添加】

（Add）按钮，将对应的百分位数添加到方框内的列表框中，利用【更改】

（Change）按钮和【删除】

（Remove）按钮，可以对列表框中的选项进行修改和删除。

（2）离散（Dispersion）栏（复选项）：

（3）集中趋势（CentralTendency）栏（复选项）：

均值（Mean）、中位数（Median）、众数（Mode）、合计（Sum）。

集中趋势"

栏下方有一个"

值为组的中点"

（Valuesaregroupmidpoints）复选框，如果假设数据已经分组，而且数据取值为初始分组的中点，选择此项，将计算百分位数统计和数据的中位数。

（4）分布栏（Distribution）（复选项）：

峰度（Kurtosis）、偏度（Skewness）。

用户在"

对话框中单击选中所要统计的统计量后，单击【继续】

（Continue）按钮，即可返回主对话框。

单击【图表】

（Charts）按钮，打开"

图表"

Charts）对话框，如图3-7所示。

在该对话框中，用户可以选择频数分析的图表类型。

该对话框中各选项的具体意义如下：

（1）图表类型（ChartType）（单选项）：

无（None）（系统默认选项）、条形图（Barcharts）、饼形图（Piecharts）、直方图（Histograms）。

如果选择输出"

直方图"

，可以选择是否在输出的直方图中添加正态分布曲线。

如果需要输出正态分布曲线，则可勾选"

带正态曲线"

（Withnormalcurve）复选框。

（2）图表值（ChartValues）（单选项组）：

可选择图形中分类值的表现形式。

频率（Frequencies）：

如果图表类型是直方图，则直方图的纵轴为频数；

如果图表类型是饼形图，则饼形图中每块表示属于该组观测值的频数。

百分比（Percentage）：

如果图表类型是直方图，则直方图的纵轴为百分比；

如果图表类型是饼形图，则饼形图中每块表示该组的观测量数占总数的百分比。

对话框中选择图表类型和图表分类值后，单击【继续】

单击【格式】

（Format）按钮，打开"

格式"

Format）对话框，如图3-8所示。

在该对话框中，用户可以设置频率分布表的输出格式。

对话框中各选项的意义如下：

（1）排序方式（Orderby）栏：

单选项组，用户可以选择频数分布表中数值及其对应频率的排列顺序。

按值的升序排序（Ascendingvalues）：

系统默认选项，频数分布表中将按照数值从小到大排列。

按值的降序排序（Descendingvalues）：

频数分布表中将按照数值从大到小排列。

按计数的升序排序（Ascendingcounts）：

频数分布表中将按照计数从小到大排列。

按计数的降序排序（Descendingcounts）：

频数分布表中将按照计数从大到小排列。

如果用户在"

对话框中选择输出直方图，频数分布表将按照数值顺序排列。

（2）多个变量（MultipleVariables）栏：

单选项组，当"

频率（Frequencies）"

主对话框的"

（Variable（s））列表框中有多个变量时，利用"

多个变量"

栏可以设置表格的显示方式。

比较变量（Comparevariables）：

系统默认选项，SPSS将所有变量的描述统计的结果显示在同一张表格中，方便用户进行比较分析。

按变量组织输出（Organizeoutputbyvariable）：

SPSS将对应每个变量分别输出单独的描述统计表格。

对话框的底端，有一个"

最大类别数"

（Suppresstableswithmorethanncategories）文本框。

通过输入数值，确定频数表输出的方位，即输出数据的组数不得大于窗口中输入的数值。

分类数最大参数的默认值是10。

对话框中进行选择后，单击【继续】

主对话框。

一般情况下，对"

对话框的选项都默认为系统默认值，不作调整。

（OK）按钮，即可在结果输出窗口中得到频数分布表、描述性统计分析输出表格和用户选择的对应的输出图形。

3.4探索分析

探索分析是在对数据的基本特征统计量有初步了解的基础上，对数据进行的更为深入详细的描述性观察分析。

它在一般描述性统计指标的基础上，增加了有关数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。

主要的分析如下：

（1）观察数据的分布特征：

通过绘制箱锁图和茎叶图等图形，直观地反映数据的分布形式和数据的一些规律，包括考察数据中是否存在异常值等。

过大或过小的数据均有可能是奇异值、影响点或错误数据。

寻找异常值，并分析原因，然后决定是否从分析中删除这些数据。

因为奇异值和影响点往往对分析的影响较大，不能真实地反映数据的总体特征。

（2）正态分布检验：

检验数据是否服从正态分布。

很多检验能够进行的前提即总体数据分布服从正态分布。

因此，检验数据是否符合正态分布，就决定了它们是否能用只对正态分布数据适用的分析方法。

（3）方差齐性检验：

用Levene检验比较各组数据的方差是否相等，以判定数据的离散程度是否存在差异。

例如在进行独立右边的T检验之前，就需要事先确定两组数据的方差是否相同。

如果通过分析发现各组数据的方差不同，还需要对数据进行方差分析，那么就需要对数据进行转换使得方差尽可能相同。

Levene检验进行方差齐性检验时，不强求数据必须服从正态分布，它先计算出各个观测值减去组内均值的差，然后再通过这些差值的绝对值进行单因素方差分析。

如果得到的显著性水平（Significance）小于0.05，那么就可以拒绝方差相同的假设。

探索分析的具体操作步骤如下：

（DescriptiveStatistics）命令下的【探索】

（Explore）命令，SPSS将弹出"

探索"

（Explore）对话框，如图3-9所示。

（Explore）对话框中，左边的变量列表为原变量列表，通过单击按钮可选择一个或者几个变量进入右边的"

因变量列表"

（DependentList）框、"

因子列表"

（FactorList）框和"

标注个案"

（LabelCasesby）列表框。

因变量是用户所研究的目标变量。

因子变量是影响因变量的因素，例如分组变量。

标注个案是区分每个观测量的变量，如雇员的ID等。

例如，研究同一班级男生和女生的身高差距时，就可将"

身高"

变量列入"

（DependentList）框中，将"

性别"

列入"

（FactorList）框中，同时将学生的"

学号"

（LabelCasesby）列表框中。

如果有多个分组变量进入"

列表框中，那么会以分组变量的各种取值进行组合分组。

如两个分组变量各有2种取值，那么输出的结果就会有4种组合分组。

在对话框下端的"

输出"

（Display）框中有三个选项：

两者都（Both）：

默认选项，表示同时输出描述统计量的统计表格和图形。

选择此项将激活右边的【统计量】

（Statistics）和【绘制】

（Plots）按钮。

统计量（Statistics）：

表示只输出统计表格，不输出图表。

（Statistics）按钮，【绘制】

（Plots）按钮不被激活。

图（Plots）：

表示只输出图表，不输出统计表格。

选择此项将激活右边的【绘制】

（Plots）按钮，【统计量】

（Statistics）按钮不被激活。

单击【统计量】

（Statistics）按钮，打开"

探索：

统计量（Explore：

Statistics）"

对话框，如图3-10所示。

在该对话框中，4个选择项分别如下：

描述性（Descriptives）：

选择此项，将生成描述性统计表格。

表中显示样本数据的描述统计量，包括平均值、中位数、5%调整平均数、标准误、方差、标准差、最大值、最小值、组距、四分位数、峰度、偏度及峰度和偏度的标准误。

此项为默认选项，在下面的"

均值的置信区间"

（ConfidenceIntervalforMean）文本框中，用户还可输入数值指定均值的置信区间的置信度，系统默认的置信度为95%。

M-估计量（M-estimators）：

选择此项，将计算并生成稳健估计量。

M估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化，通过给远离中心值的数据赋予较小的权重来减小异常值的影响。

界外值（Outliers）：

选择此项，将输出分析数据中的5个最大值和5个最小值作为异常嫌疑值。

百分位数（Percentiles）：

选择此项，将计算并显示指定的百分位数，包括5%、10%、25%、50%、75%、90%和95%等。

对话框中的4个选项为复选框，用户可进

展开阅读全文