4数值化描述Word文档格式.docx
《4数值化描述Word文档格式.docx》由会员分享,可在线阅读,更多相关《4数值化描述Word文档格式.docx(14页珍藏版)》请在冰点文库上搜索。
Frequencies:
频数表分布是统计描述中最常用的方法之一。
该命令不但可以产生频数表还可以绘制常用的条图、圆图以及直方图等描述统计图,同时可以计算相应的描述数据集中、离散趋势以及分布形态的统计量。
和Descriptive过程相比,它更加适用于分类变量。
研究者想研究某地110名20岁男大学生的身高(cm),请计算相应的集中、离散趋势以及分布形态的统计量指标;
生成一个由11个组段组成的频数分布表;
并且作适当的统计图。
根据我们的经验,相同性别同年龄人群的身高近似服从正态分布,因此可以考虑用算术平均数与标准差描述其集中与离散趋势,用偏态系数与峰态系数描述其分布形态,用直方图描述其频数分布。
打开“身高.sav”,点击Frequencies:
将身高选入variables中,系统默认结果输出时显示频数分布表(Displayfrequencytables),但是该表和我们的要求相差甚远,必须对其进行调整,调整方法见后所述。
进而可以在statistics中选择统计量。
该对话框为选用统计量,其中Mode为众数,表述为在原始数据众出现频数最多的数值。
至于valuesaregroupmidpoint表示当计算百分位数时,如果选择该项则频数表中的数值为组段的组中值;
通常情况下由于我们输入的都是原始数据,所以在算百分位数时通常该项均不选。
另外一点需要说明的是,SPSS计算百分位数的方法与教科书的不太一致,而且几种统计软件间的计算结果也不太一致。
在SPSS中百分位数实质为计算第p(n+1)位数,方法大致如下:
而Excel或S-plus等软件是算第p(n-1)+1位数,其余与SPSS相同。
Chart对话框则提供了统计作图功能,常用的由条图(bar),圆图(pie),直方图(histogram),并且可以选择输出直方图时附带绘制正态分布曲线。
本题为计量资料,观测其频数分布,宜选用直方图,同时为了考察数据的正态性,可以让系统绘制正态分布图形以作比较。
最后可以定义输出的格式,默认为按照数值大小升序排列,如果有分组变量(首先必须在data-splitfiles中设定将数据按照分组变量拆分),则可以按组输出统计量与统计图。
完成后,点击OK,生成如下结果:
该表为数据统计量,列出了例数、均数、标准差、中位数、偏度系数与峰度系数及其标准误。
而后是原始数据的频数分布表(节选):
该表列出了具体的原始数值、相应的频数、该数据占总例数的百分比、累计百分比;
但是这并非我们最终想要的表格。
可以通过对变量重新编码的方法得到如下频数分布表。
从原始数据频数表中可以得知最小的数值为162.9,最大的为183.5;
所以可以考虑最小组段的下限为162,最大组段的上限为184,分为11段,组距为2;
可在Transform-compute菜单中将身高值定义为一个新变量值(例如取之为≥162且<
164的为1,≥164且<
166的为2,依次类推),再通过variableview中的values给每个变量值赋值(例如将1赋值为162~,2赋值为164~,依次类推);
也可以通过Data-recode命令,重新对身高赋值(最好从最后一个组段开始,因为rangeafromb区间包含了两个界值a与b,为了避免分组错乱,先从最后一段开始,比如将range182from184定义为11,因为182已经被11占用,再定义10的时候就不必担心182被重复的问题,直接将range180from182定义为10即可,相当于180≤x<
182,余下依次类推),而后通过variableview中的values给每个新变量值赋值。
然后使用frequencies命令对新变量绘制频数表,就可得到如下结果:
修改完频数表后可以对直方图重新定义(因为原先的直方图有22个组段,现要改为11段),可直接双击统计图,在横坐标区修改分组数、在图域中修改图形样式,结果如下:
Descriptive:
该过程的功能同frequencies,但是较前述命令功能有所简化,如无法对分类变量进行统计描述,少了百分位数、众数等统计指标,无法作图;
但是可以计算均数的标准误,同时其最大的特点是可以生成一个标准正态性转换后的统计量。
例如,研究者想要分析某地男性大学生的身高平均数、标准差、均数的标准误,并给出标准正态性转换后的统计量。
其操作过程如下:
将变量“身高”选入variables中,并将savestandardizedvaluesasvariables,点击options定义统计量:
设定结束后,点击OK,系统得到如下结果:
Explore:
探索分析,是Descriptivestatistics中功能最强大的描述命令,主要用在资料性质不明、分布特点不完全清楚时;
它除了提供比上述两个命令更多的统计量之外,也提供更全面的图形描述;
同时还提供数据分布检验(主要针对正态性);
此外还可以直接分组分析,并对不服从正态的数据进行转换。
例如研究者想分析某一特殊人群的血清胆固醇值,请选择合适的统计学指标描述之,同时对资料作图。
由于本资料没有分组变量,直接将“血清胆固醇”移入Dependentlist中;
同时在Display复选框中选择既输出统计量又输出统计图(Both);
分别点击statistics与plots设定统计量与统计图:
在statistics中选择Descriptives,系统将输出样本算术平均数,总体均数的95%可信区间(其中致信度可以修改),5%trimmedmean(有的时候也称为5%truncatedmean)即截去双侧各2.5%的极端值后的算术平均数,中位数、方差、标准差、最大与最小值、极差、四分位数间距、偏度系数与峰度系数。
可见其涵盖了几乎所有的集中、离散趋势以及分布形态指标。
在statistics中还提供了M估计值(M-estimators)。
众所周知,由于算术平均数对两端的极值十分敏感,这是由于算术均数具有
的特点(既所谓的离均差平方和最小),必须迁就远离均数的极端值,所以对异常值很敏感,也就是通常所谓的估计不够稳健(Robust);
为了减少异常点的作用,可以考虑对离平均数距离不同的点给予不同权重,离平均数近的给的权重大些,远的则小些,并据此建立加权的最小二乘估计,反复迭代,改进权重系数直至
,这就是通常所说的最大似然估计(MaximumLikely-hoodEstimation)简写为M估计;
这种方法在数据中存在极端数值时对计算的平均数影响小,所以也被称为稳健的估计;
当然如果数据中不存在极端值,该方法的估计结果应该与算术平均数十分接近。
由于在计算权重常数的时候不同学者提出不同的计算方法,所以系统给出了四种估计结果(四种结果间都很接近,同时在本例中它们都与算术平均数接近):
而outlier选项用于输出5个最大与最小值;
percentiles选项用于输出7个特殊的百分位数,同时还给出Tukey法计算四分位数的结果:
WeightedAverage法计算百分位数的方法见Frequencies中所述;
Tukey法的计算公式如下:
接着是正态性检验的结果,用两种方法均有P>
0.05,所以尚不认为数据不服从正态分布。
下图是茎-叶图(stem-leafplot),和直方图一样用于描述数据的频数分布。
图中被划分为3个区域,分别是频数、茎、叶。
其中茎值×
茎宽(stem×
stemwidth)为原始数据的整数部分,而叶值×
茎宽(leaf×
stemwidth)为原始数据的小数部分;
例如本图中有一个数值为4.5(茎为4,叶为0.5),则其原始数据为4×
1+0.5×
1=4.5;
可见茎叶图可以直观的表示数据的分布形态和范围。
下图为正态概率QQ图;
其横坐标为实际观察数值的大小,纵坐标为用正态分布估计的数值的大小,如果数据满足正态分布,则图中的数据点和理论的直线应该基本重合;
从下图中可见数据基本落在直线上,除了远端有一个特殊点较偏离直线。
还有一种去趋势的QQ图如下:
该图的横坐标表示实际的数值大小,纵坐标表示经过正态拟合后的数据与原始数据的偏差,理想的情况下(数据满足正态分布时)偏差应该很小,或者应该都在0附近,也就是图中那条平行于横坐标轴的y=0直线附近。
本例可见数据与其正态预期值的差值不是很大,基本都在y=0直线的上下,只有一个特殊点与正态拟合的数值差距较大。
系统输出的最后一个图形为箱式图(Boxplot)。
箱子中央的横线表示表示中位数,箱子的上部横线代表上四分位数QU,下部横线则代表下四分位数QL,箱子中包含了中间50%的观察对象(QU-QL=IQR);
如果箱体之下的数值与QL的距离超过了1.5倍的四分位数间距(1.5IQR),或者箱体之上的数据与QU的距离超过了1.5IQR,则系统将其判断为奇异值(outlier),用符号“○”表示;
如果箱体之下的数值与QL的距离超过了3IQR,或者箱体之上的数据与QU的距离超过了3IQR,则系统将其判断为极端值(extreme),用符号“*”表示。
与箱体触须相连的上下两条横截线(whisker),分别表示除了奇异值与极端值外数据的最大与最小值。
从图中可以看出数据的平均水平、变异情况、以及大致的分布形态。
下图是如果数据服从正态分布,奇异值与正态分布曲线下面积的关系: