五 描述统计分析.docx
《五 描述统计分析.docx》由会员分享,可在线阅读,更多相关《五 描述统计分析.docx(5页珍藏版)》请在冰点文库上搜索。
![五 描述统计分析.docx](https://file1.bingdoc.com/fileroot1/2023-6/9/07b23457-5e4d-495b-bc24-264a73eac4b0/07b23457-5e4d-495b-bc24-264a73eac4b01.gif)
五描述统计分析
描述统计分析
统计分析的目的是研究总体特征。
而往往由于客观条件的限制,我们只能够得到从总体中随机抽取的一部分观察对象,称之为样本,只有通过对样本的描述和研究,才有可能对总体进行某种可能的推断。
描述统计分析是推断统计分析的基础。
一、描述统计分析的基本内容包括:
集中趋势分析:
众数:
出现频率最高的数
中位数:
将数据排序后位于正中间的数值。
适合于所有分布类型的数据
分位数:
四分位数、中位数、百分位数。
理解分位数的含义。
均值:
一组数据的简单算术平均数或加权算术平均数。
适合于正态分布或对成分布资料。
几何平均数:
算术平均数的变形,专门用来处理特殊数据的平均数,如发展速度
调和平均数:
算术平均数的一种变形。
离散趋势分析
极差:
数据最大值减去最小值,最简单的离散程度测度值
标准差、方差:
最常用的离散程度测侧度值,一般适合于正态分布资料
最小值、最大值
标准误:
样本平均数的标准差
偏度、峰度测量
偏度系数:
Skewness,当分布对称时,偏度系数为0。
当偏度系数为正值,可以判断为右偏(正偏),反之,判断为左偏(负偏)。
峰度系数:
Kurtosis,是对数据分布平峰或尖峰程度的测度。
峰度是针对标准正态分布而言的。
峰度系数为3,表明数据为标准正态分布。
若峰度系数大于3,则数据为尖峰分布;反之为平峰分布。
统计图形分析:
直方图、PP图、茎叶图、箱线图等
上述三种图形是描述统计分析过程中常用的几种图形,是用于观察数据的分布形态的辅助工具。
二、菜单介绍:
1、frequencies过程:
生成频数分布表,适合于定性资料,以及部分定量资料。
2、descriptive:
进行一般的描述统计统计分析,包括集中趋势值,离散趋势值,偏度系数,峰度系数等。
适合服从正态分布的定量资料。
使用频率最高。
3、Explore:
适合于数据分布状况不清时的探索性数据分析。
4、ratio:
对连个连续性变量计算相对指标。
三、frequencies过程。
注:
另要求对该数据作出组距式频数表。
例题:
对上海市1884-1992年数据进行频数分析。
四、descriptive过程
主要针对连续性资料,可以计算一系列描述统计量。
并且可以将变量的原始数据标准化并以变量的形式保存。
五、explore过程
适用于对资料的性质、分布特点完全不清楚时,称之为探索性分析。
能计算常用描述统计量,并绘制统计图形,包括茎叶图、箱线图。
箱线图:
首先找出一组数据的五个特征值,包括最小值、最大值、中位数、两个四分位数(上四分位数和下四分位数),然后,连接两个四分位数构成箱子,最后连接两个极值点与箱子,形成箱式图。
可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如U型分布。
例:
某班学生英语成绩如下:
7690977170938683788581绘制箱线图如下:
茎叶图:
将数据分成茎和叶两部分,通常以数据的高位数值为茎,低位为叶,树叶上一般保留数据的最后一个数字,树叶长在树茎上。
通过茎叶图,也可以看出数据的分布形状及数据的离散状况。
实际上是横放的直方图。
适合于数据量较少的情况。
该图形的优势,既保留原始数据的信息,又能看出数据的分布状况。
这是比直方图优越的地方。
【例】某生产车间50名工人日加工零件数如下(单位:
个)。
试绘茎叶图观察分布特征。
117122124129139107117130122125108131125117122133126122118108110118123126133134127123118112112134127123119113120123127135137114120128124115139128124121
M-estimators:
用于对集中趋势进行最大稳健估计。
当数据中存在异常值较多时,适合于用该估计值代替平均值来反映数据的集中趋势。
通常有四种统计量:
Huber、Andrew、Hampel、Tukey。
若这四个统计量的结果较为接近,且与均数相差不大,则说明数据分布不太偏,也就说明均值可以代表数据的集中趋势。
Levene:
方差齐性检验。
适合于对分组数据检验各组间数据是否方差齐。
Shapirowilk检验:
正态性检验的方法之一。
当检验一组数据是否服从正态分布,可以运用该检验方法。
一般适合于小样本场合。
K-S检验:
正态性检验的方法之一。
当检验一组数据是否服从正态分布,可以运用该检验方法。
一般适合于连续性数据,大样本场合。