4数值化描述Word文档格式.docx

资源描述

4数值化描述Word文档格式.docx

《4数值化描述Word文档格式.docx》由会员分享，可在线阅读，更多相关《4数值化描述Word文档格式.docx（14页珍藏版）》请在冰点文库上搜索。

4数值化描述Word文档格式.docx

Frequencies：

频数表分布是统计描述中最常用的方法之一。

该命令不但可以产生频数表还可以绘制常用的条图、圆图以及直方图等描述统计图，同时可以计算相应的描述数据集中、离散趋势以及分布形态的统计量。

和Descriptive过程相比，它更加适用于分类变量。

研究者想研究某地110名20岁男大学生的身高（cm），请计算相应的集中、离散趋势以及分布形态的统计量指标；

生成一个由11个组段组成的频数分布表；

并且作适当的统计图。

根据我们的经验，相同性别同年龄人群的身高近似服从正态分布，因此可以考虑用算术平均数与标准差描述其集中与离散趋势，用偏态系数与峰态系数描述其分布形态，用直方图描述其频数分布。

打开“身高.sav”，点击Frequencies：

将身高选入variables中，系统默认结果输出时显示频数分布表（Displayfrequencytables），但是该表和我们的要求相差甚远，必须对其进行调整，调整方法见后所述。

进而可以在statistics中选择统计量。

该对话框为选用统计量，其中Mode为众数，表述为在原始数据众出现频数最多的数值。

至于valuesaregroupmidpoint表示当计算百分位数时，如果选择该项则频数表中的数值为组段的组中值；

通常情况下由于我们输入的都是原始数据，所以在算百分位数时通常该项均不选。

另外一点需要说明的是，SPSS计算百分位数的方法与教科书的不太一致，而且几种统计软件间的计算结果也不太一致。

在SPSS中百分位数实质为计算第p（n+1）位数，方法大致如下：

而Excel或S-plus等软件是算第p（n-1）+1位数，其余与SPSS相同。

Chart对话框则提供了统计作图功能，常用的由条图（bar），圆图（pie），直方图（histogram），并且可以选择输出直方图时附带绘制正态分布曲线。

本题为计量资料，观测其频数分布，宜选用直方图，同时为了考察数据的正态性，可以让系统绘制正态分布图形以作比较。

最后可以定义输出的格式，默认为按照数值大小升序排列，如果有分组变量（首先必须在data-splitfiles中设定将数据按照分组变量拆分），则可以按组输出统计量与统计图。

完成后，点击OK，生成如下结果：

该表为数据统计量，列出了例数、均数、标准差、中位数、偏度系数与峰度系数及其标准误。

而后是原始数据的频数分布表（节选）：

该表列出了具体的原始数值、相应的频数、该数据占总例数的百分比、累计百分比；

但是这并非我们最终想要的表格。

可以通过对变量重新编码的方法得到如下频数分布表。

从原始数据频数表中可以得知最小的数值为162.9，最大的为183.5；

所以可以考虑最小组段的下限为162，最大组段的上限为184，分为11段，组距为2；

可在Transform－compute菜单中将身高值定义为一个新变量值（例如取之为≥162且<

164的为1，≥164且<

166的为2，依次类推），再通过variableview中的values给每个变量值赋值（例如将1赋值为162～，2赋值为164～，依次类推）；

也可以通过Data－recode命令，重新对身高赋值（最好从最后一个组段开始，因为rangeafromb区间包含了两个界值a与b，为了避免分组错乱，先从最后一段开始，比如将range182from184定义为11，因为182已经被11占用，再定义10的时候就不必担心182被重复的问题，直接将range180from182定义为10即可，相当于180≤x<

182，余下依次类推），而后通过variableview中的values给每个新变量值赋值。

然后使用frequencies命令对新变量绘制频数表，就可得到如下结果：

修改完频数表后可以对直方图重新定义（因为原先的直方图有22个组段，现要改为11段），可直接双击统计图，在横坐标区修改分组数、在图域中修改图形样式，结果如下：

Descriptive：

该过程的功能同frequencies，但是较前述命令功能有所简化，如无法对分类变量进行统计描述，少了百分位数、众数等统计指标，无法作图；

但是可以计算均数的标准误，同时其最大的特点是可以生成一个标准正态性转换后的统计量。

例如，研究者想要分析某地男性大学生的身高平均数、标准差、均数的标准误，并给出标准正态性转换后的统计量。

其操作过程如下：

将变量“身高”选入variables中，并将savestandardizedvaluesasvariables，点击options定义统计量：

设定结束后，点击OK，系统得到如下结果：

Explore：

探索分析，是Descriptivestatistics中功能最强大的描述命令，主要用在资料性质不明、分布特点不完全清楚时；

它除了提供比上述两个命令更多的统计量之外，也提供更全面的图形描述；

同时还提供数据分布检验（主要针对正态性）；

此外还可以直接分组分析，并对不服从正态的数据进行转换。

例如研究者想分析某一特殊人群的血清胆固醇值，请选择合适的统计学指标描述之，同时对资料作图。

由于本资料没有分组变量，直接将“血清胆固醇”移入Dependentlist中；

同时在Display复选框中选择既输出统计量又输出统计图（Both）；

分别点击statistics与plots设定统计量与统计图：

在statistics中选择Descriptives，系统将输出样本算术平均数，总体均数的95％可信区间（其中致信度可以修改），5％trimmedmean（有的时候也称为5％truncatedmean）即截去双侧各2.5％的极端值后的算术平均数，中位数、方差、标准差、最大与最小值、极差、四分位数间距、偏度系数与峰度系数。

可见其涵盖了几乎所有的集中、离散趋势以及分布形态指标。

在statistics中还提供了M估计值（M-estimators）。

众所周知，由于算术平均数对两端的极值十分敏感，这是由于算术均数具有

的特点（既所谓的离均差平方和最小），必须迁就远离均数的极端值，所以对异常值很敏感，也就是通常所谓的估计不够稳健（Robust）；

为了减少异常点的作用，可以考虑对离平均数距离不同的点给予不同权重，离平均数近的给的权重大些，远的则小些，并据此建立加权的最小二乘估计，反复迭代，改进权重系数直至

，这就是通常所说的最大似然估计（MaximumLikely-hoodEstimation）简写为M估计；

这种方法在数据中存在极端数值时对计算的平均数影响小，所以也被称为稳健的估计；

当然如果数据中不存在极端值，该方法的估计结果应该与算术平均数十分接近。

由于在计算权重常数的时候不同学者提出不同的计算方法，所以系统给出了四种估计结果（四种结果间都很接近，同时在本例中它们都与算术平均数接近）：

而outlier选项用于输出5个最大与最小值；

percentiles选项用于输出7个特殊的百分位数，同时还给出Tukey法计算四分位数的结果：

WeightedAverage法计算百分位数的方法见Frequencies中所述；

Tukey法的计算公式如下：

接着是正态性检验的结果，用两种方法均有P>

0.05，所以尚不认为数据不服从正态分布。

下图是茎－叶图（stem-leafplot），和直方图一样用于描述数据的频数分布。

图中被划分为3个区域，分别是频数、茎、叶。

其中茎值×

茎宽（stem×

stemwidth）为原始数据的整数部分，而叶值×

茎宽（leaf×

stemwidth）为原始数据的小数部分；

例如本图中有一个数值为4.5（茎为4，叶为0.5），则其原始数据为4×

1＋0.5×

1＝4.5；

可见茎叶图可以直观的表示数据的分布形态和范围。

下图为正态概率QQ图；

其横坐标为实际观察数值的大小，纵坐标为用正态分布估计的数值的大小，如果数据满足正态分布，则图中的数据点和理论的直线应该基本重合；

从下图中可见数据基本落在直线上，除了远端有一个特殊点较偏离直线。

还有一种去趋势的QQ图如下：

该图的横坐标表示实际的数值大小，纵坐标表示经过正态拟合后的数据与原始数据的偏差，理想的情况下（数据满足正态分布时）偏差应该很小，或者应该都在0附近，也就是图中那条平行于横坐标轴的y=0直线附近。

本例可见数据与其正态预期值的差值不是很大，基本都在y=0直线的上下，只有一个特殊点与正态拟合的数值差距较大。

系统输出的最后一个图形为箱式图（Boxplot）。

箱子中央的横线表示表示中位数，箱子的上部横线代表上四分位数QU，下部横线则代表下四分位数QL，箱子中包含了中间50％的观察对象（QU－QL＝IQR）；

如果箱体之下的数值与QL的距离超过了1.5倍的四分位数间距（1.5IQR），或者箱体之上的数据与QU的距离超过了1.5IQR，则系统将其判断为奇异值（outlier），用符号“○”表示；

如果箱体之下的数值与QL的距离超过了3IQR，或者箱体之上的数据与QU的距离超过了3IQR，则系统将其判断为极端值（extreme），用符号“＊”表示。

与箱体触须相连的上下两条横截线（whisker），分别表示除了奇异值与极端值外数据的最大与最小值。

从图中可以看出数据的平均水平、变异情况、以及大致的分布形态。

下图是如果数据服从正态分布，奇异值与正态分布曲线下面积的关系：

展开阅读全文