4数值化描述Word文档格式.docx

上传人:b****4 文档编号:7820790 上传时间:2023-05-09 格式:DOCX 页数:14 大小:457.45KB
下载 相关 举报
4数值化描述Word文档格式.docx_第1页
第1页 / 共14页
4数值化描述Word文档格式.docx_第2页
第2页 / 共14页
4数值化描述Word文档格式.docx_第3页
第3页 / 共14页
4数值化描述Word文档格式.docx_第4页
第4页 / 共14页
4数值化描述Word文档格式.docx_第5页
第5页 / 共14页
4数值化描述Word文档格式.docx_第6页
第6页 / 共14页
4数值化描述Word文档格式.docx_第7页
第7页 / 共14页
4数值化描述Word文档格式.docx_第8页
第8页 / 共14页
4数值化描述Word文档格式.docx_第9页
第9页 / 共14页
4数值化描述Word文档格式.docx_第10页
第10页 / 共14页
4数值化描述Word文档格式.docx_第11页
第11页 / 共14页
4数值化描述Word文档格式.docx_第12页
第12页 / 共14页
4数值化描述Word文档格式.docx_第13页
第13页 / 共14页
4数值化描述Word文档格式.docx_第14页
第14页 / 共14页
亲,该文档总共14页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

4数值化描述Word文档格式.docx

《4数值化描述Word文档格式.docx》由会员分享,可在线阅读,更多相关《4数值化描述Word文档格式.docx(14页珍藏版)》请在冰点文库上搜索。

4数值化描述Word文档格式.docx

Frequencies:

频数表分布是统计描述中最常用的方法之一。

该命令不但可以产生频数表还可以绘制常用的条图、圆图以及直方图等描述统计图,同时可以计算相应的描述数据集中、离散趋势以及分布形态的统计量。

和Descriptive过程相比,它更加适用于分类变量。

研究者想研究某地110名20岁男大学生的身高(cm),请计算相应的集中、离散趋势以及分布形态的统计量指标;

生成一个由11个组段组成的频数分布表;

并且作适当的统计图。

根据我们的经验,相同性别同年龄人群的身高近似服从正态分布,因此可以考虑用算术平均数与标准差描述其集中与离散趋势,用偏态系数与峰态系数描述其分布形态,用直方图描述其频数分布。

打开“身高.sav”,点击Frequencies:

将身高选入variables中,系统默认结果输出时显示频数分布表(Displayfrequencytables),但是该表和我们的要求相差甚远,必须对其进行调整,调整方法见后所述。

进而可以在statistics中选择统计量。

该对话框为选用统计量,其中Mode为众数,表述为在原始数据众出现频数最多的数值。

至于valuesaregroupmidpoint表示当计算百分位数时,如果选择该项则频数表中的数值为组段的组中值;

通常情况下由于我们输入的都是原始数据,所以在算百分位数时通常该项均不选。

另外一点需要说明的是,SPSS计算百分位数的方法与教科书的不太一致,而且几种统计软件间的计算结果也不太一致。

在SPSS中百分位数实质为计算第p(n+1)位数,方法大致如下:

而Excel或S-plus等软件是算第p(n-1)+1位数,其余与SPSS相同。

Chart对话框则提供了统计作图功能,常用的由条图(bar),圆图(pie),直方图(histogram),并且可以选择输出直方图时附带绘制正态分布曲线。

本题为计量资料,观测其频数分布,宜选用直方图,同时为了考察数据的正态性,可以让系统绘制正态分布图形以作比较。

最后可以定义输出的格式,默认为按照数值大小升序排列,如果有分组变量(首先必须在data-splitfiles中设定将数据按照分组变量拆分),则可以按组输出统计量与统计图。

完成后,点击OK,生成如下结果:

该表为数据统计量,列出了例数、均数、标准差、中位数、偏度系数与峰度系数及其标准误。

而后是原始数据的频数分布表(节选):

该表列出了具体的原始数值、相应的频数、该数据占总例数的百分比、累计百分比;

但是这并非我们最终想要的表格。

可以通过对变量重新编码的方法得到如下频数分布表。

从原始数据频数表中可以得知最小的数值为162.9,最大的为183.5;

所以可以考虑最小组段的下限为162,最大组段的上限为184,分为11段,组距为2;

可在Transform-compute菜单中将身高值定义为一个新变量值(例如取之为≥162且<

164的为1,≥164且<

166的为2,依次类推),再通过variableview中的values给每个变量值赋值(例如将1赋值为162~,2赋值为164~,依次类推);

也可以通过Data-recode命令,重新对身高赋值(最好从最后一个组段开始,因为rangeafromb区间包含了两个界值a与b,为了避免分组错乱,先从最后一段开始,比如将range182from184定义为11,因为182已经被11占用,再定义10的时候就不必担心182被重复的问题,直接将range180from182定义为10即可,相当于180≤x<

182,余下依次类推),而后通过variableview中的values给每个新变量值赋值。

然后使用frequencies命令对新变量绘制频数表,就可得到如下结果:

修改完频数表后可以对直方图重新定义(因为原先的直方图有22个组段,现要改为11段),可直接双击统计图,在横坐标区修改分组数、在图域中修改图形样式,结果如下:

Descriptive:

该过程的功能同frequencies,但是较前述命令功能有所简化,如无法对分类变量进行统计描述,少了百分位数、众数等统计指标,无法作图;

但是可以计算均数的标准误,同时其最大的特点是可以生成一个标准正态性转换后的统计量。

例如,研究者想要分析某地男性大学生的身高平均数、标准差、均数的标准误,并给出标准正态性转换后的统计量。

其操作过程如下:

将变量“身高”选入variables中,并将savestandardizedvaluesasvariables,点击options定义统计量:

设定结束后,点击OK,系统得到如下结果:

Explore:

探索分析,是Descriptivestatistics中功能最强大的描述命令,主要用在资料性质不明、分布特点不完全清楚时;

它除了提供比上述两个命令更多的统计量之外,也提供更全面的图形描述;

同时还提供数据分布检验(主要针对正态性);

此外还可以直接分组分析,并对不服从正态的数据进行转换。

例如研究者想分析某一特殊人群的血清胆固醇值,请选择合适的统计学指标描述之,同时对资料作图。

由于本资料没有分组变量,直接将“血清胆固醇”移入Dependentlist中;

同时在Display复选框中选择既输出统计量又输出统计图(Both);

分别点击statistics与plots设定统计量与统计图:

在statistics中选择Descriptives,系统将输出样本算术平均数,总体均数的95%可信区间(其中致信度可以修改),5%trimmedmean(有的时候也称为5%truncatedmean)即截去双侧各2.5%的极端值后的算术平均数,中位数、方差、标准差、最大与最小值、极差、四分位数间距、偏度系数与峰度系数。

可见其涵盖了几乎所有的集中、离散趋势以及分布形态指标。

在statistics中还提供了M估计值(M-estimators)。

众所周知,由于算术平均数对两端的极值十分敏感,这是由于算术均数具有

的特点(既所谓的离均差平方和最小),必须迁就远离均数的极端值,所以对异常值很敏感,也就是通常所谓的估计不够稳健(Robust);

为了减少异常点的作用,可以考虑对离平均数距离不同的点给予不同权重,离平均数近的给的权重大些,远的则小些,并据此建立加权的最小二乘估计,反复迭代,改进权重系数直至

,这就是通常所说的最大似然估计(MaximumLikely-hoodEstimation)简写为M估计;

这种方法在数据中存在极端数值时对计算的平均数影响小,所以也被称为稳健的估计;

当然如果数据中不存在极端值,该方法的估计结果应该与算术平均数十分接近。

由于在计算权重常数的时候不同学者提出不同的计算方法,所以系统给出了四种估计结果(四种结果间都很接近,同时在本例中它们都与算术平均数接近):

而outlier选项用于输出5个最大与最小值;

percentiles选项用于输出7个特殊的百分位数,同时还给出Tukey法计算四分位数的结果:

WeightedAverage法计算百分位数的方法见Frequencies中所述;

Tukey法的计算公式如下:

接着是正态性检验的结果,用两种方法均有P>

0.05,所以尚不认为数据不服从正态分布。

下图是茎-叶图(stem-leafplot),和直方图一样用于描述数据的频数分布。

图中被划分为3个区域,分别是频数、茎、叶。

其中茎值×

茎宽(stem×

stemwidth)为原始数据的整数部分,而叶值×

茎宽(leaf×

stemwidth)为原始数据的小数部分;

例如本图中有一个数值为4.5(茎为4,叶为0.5),则其原始数据为4×

1+0.5×

1=4.5;

可见茎叶图可以直观的表示数据的分布形态和范围。

下图为正态概率QQ图;

其横坐标为实际观察数值的大小,纵坐标为用正态分布估计的数值的大小,如果数据满足正态分布,则图中的数据点和理论的直线应该基本重合;

从下图中可见数据基本落在直线上,除了远端有一个特殊点较偏离直线。

还有一种去趋势的QQ图如下:

该图的横坐标表示实际的数值大小,纵坐标表示经过正态拟合后的数据与原始数据的偏差,理想的情况下(数据满足正态分布时)偏差应该很小,或者应该都在0附近,也就是图中那条平行于横坐标轴的y=0直线附近。

本例可见数据与其正态预期值的差值不是很大,基本都在y=0直线的上下,只有一个特殊点与正态拟合的数值差距较大。

系统输出的最后一个图形为箱式图(Boxplot)。

箱子中央的横线表示表示中位数,箱子的上部横线代表上四分位数QU,下部横线则代表下四分位数QL,箱子中包含了中间50%的观察对象(QU-QL=IQR);

如果箱体之下的数值与QL的距离超过了1.5倍的四分位数间距(1.5IQR),或者箱体之上的数据与QU的距离超过了1.5IQR,则系统将其判断为奇异值(outlier),用符号“○”表示;

如果箱体之下的数值与QL的距离超过了3IQR,或者箱体之上的数据与QU的距离超过了3IQR,则系统将其判断为极端值(extreme),用符号“*”表示。

与箱体触须相连的上下两条横截线(whisker),分别表示除了奇异值与极端值外数据的最大与最小值。

从图中可以看出数据的平均水平、变异情况、以及大致的分布形态。

下图是如果数据服从正态分布,奇异值与正态分布曲线下面积的关系:

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2