描述统计表格与图形方法.docx
《描述统计表格与图形方法.docx》由会员分享,可在线阅读,更多相关《描述统计表格与图形方法.docx(33页珍藏版)》请在冰点文库上搜索。
描述统计表格与图形方法
第二章描述统计:
表格与图形方法
第一节数据的预处理
一、数据审核
1、准确性审核:
审核的对象就登记性误差(非抽样误差)采取逻辑检查和计算检查方法
·逻辑检查:
主要看调查数据的内容是否合理,项目之间是否有矛盾的地方,以及与有关数据进行对照,或者检查数据的平衡关系,以暴露逻辑上的矛盾
·计算检查:
主要是从数字上检查,如各分项之和是否等于总计,计量单位是否合适,计算方法上是否合理等等
2、全面性审核:
核对应调查的单位是否有遗漏,应调查的内容是否齐全
3、及时性审核:
即是否按规定的时间获取数据资料
二、数据筛选
1、当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选
2、数据筛选的内容
(1)将某些不符合要求的数据或有明显错误的数据予以剔除
(2)将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除
3、数据筛选可借助计算机完成
三、数据排序
1、按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索
2、排序有助于对数据检查纠错,以及为重新归类或分组等提供依据
3、在某些场合,排序本身就是分析的目的之一
4、排序可借助于计算机完成
第二节定性数据的图表分析
一、频数分布:
将统计数据分组后,各组数据出现的次数被称为频数(次数)。
把各个组以及相应的频数依一定的次序全部列出来,就形成了频数分布(次数分布)
1、频率:
各组单位数占总体单位总数的比重
××定性数据本身就是对事物的一种分类,在列出所分的类别的同时,再列出对应的频数或频率,就形成了分类数据的频数分布。
2、顺序数据的整理(可计算的统计量)
(1)累积频数:
各类别频数的逐级累加。
包括向上累积和向下累积两类。
(2)累积频率:
各类别频率(百分比)的逐级累加。
包括向上累积和向下累积两类。
&&补充:
1>向上累计:
从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。
2>向下累计:
从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。
3、比例:
也称构成比,它是一个样本(或总体)中各类别的频数与全部频数之比,通常用于反映样本(或总体)的构成或结构。
(1)将比例乘以100得到的数值称为百分比,用%表示。
(2)由比例和百分比我们可以编制相对频数分布表和百分数频数分布表。
二、定性数据的图形表示
·比较适用于定性数据的图形主要有:
条形图、饼图、环形图等。
1、统计图—条形图:
用宽度相同的条形的高度或长短来表示各类别数据的图形
(1)有单式条形图、复式条形图等形式
(2)主要用于反映分类数据的频数分布
(3)绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图
2、分类数据的图示—饼图:
也称圆形图,用圆形及圆内扇形的面积来表示数值大小的图形
(1)主要用于表示总体或样本中各组成部分所占的比例,适用于研究结构性问题
(2)绘图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分数据百分比占360°的相应比例确定的
3、环形图:
中间有一个“空洞”,总体中的每一部分数据用环中的一段表示
·环形图与圆形图类似,但又有区别
(1)圆形图只能显示一个总体各部分所占的比例
(2)环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环
(3)环形图可用于结构比较研究
(4)环形图主要用于展示分类和顺序数据
第三节定量数据的图表分析
一、频数分布
1、单变量值分组:
将每一个变量值作为一组。
适合于离散变量且变量值较少的情况
2、组距分组:
将全部变量值一次划分为若干个数值区间,每一个区间作为一组。
适合于连续变量或变量值较多的离散变量
(1)组距分组的方法:
将作为分组依据的数量标志的整个取值范围依次划分为若干个满足互斥性和包容性的区间,用这些数值区间作为组的名称。
(2)组距分组的一些概念
1>组限:
组距两端的数值分为上限U和下限L。
上限是区间数值的最大值,下限是区间数值的最小值
2>组距:
每一组的区间长度。
组距d=上限U-下限L,表示各组标志值的变动范围。
3>组中值X:
每一组中点位置的数值。
组中值=(上限+下限)÷2
4>开口组:
缺少上限数值或下限数值的组。
开口组以相邻组的组距作为该组的组距,确定其下限或上限,再计算组中值。
·缺下限的开口组组中值:
上限—1/2临组组距
·缺上限的开口组组中值:
下限+1/2临组组距
5>等距分组:
各组组距相等的分组
6>异距分组:
各组组距不全相等的分组
(3)组距变量数列的编制
1>确定组数:
组数的确定应以能够显示数据的分布特征和规律为目的。
在实际分组时,可以按Sturges提出的经验公式来确定组数K
2>确定组距:
组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距d=(最大值-最小值)÷组数
&&此办法适合等距分组,若遇变量值较分散的情况,不可用此方法。
组距宜取整数,且是5或10的倍数较好
3>.确定各组组限。
第一组的的下限应小于或等于最小变量值;最后一组的上限应大于最大变量值;各组组限要取整数;第一组和最后组可取开口组;
4.》统计各组的频数并整理成频数分布表。
统计各组频数总原则:
不重不漏;对于重叠设置的组限频数统计遵循上组限不在内原则
·上限不在内原则:
当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内
(4)频数分布表的编制
1>确定组数:
根据Sturges提出的经验公式得组数K为:
2>确定各组的组距:
组距=(139-107)÷7≈4.65
3>用Excel制作频数分布表
二、定量数据的图形表示
1、直方图:
用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布
(1)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图
(2)直方图下的总面积等于1
(3)直方图与条形图的区别
·直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)
·条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义
·直方图的各矩形通常是连续排列,条形图则是分开排列
2、折线图:
也称频数多边形图,在直方图的基础上,把直方图中各矩形顶部的中点(即组中值)用直线连接起来,再把原来的直方图抹掉就是折线图。
·折线图的两个终点要与横轴相交,将第一个矩形的顶部中点通过竖边中点(即该组频数或频率一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。
这样能使折线图下所围成的面积与直方图的面积相等,使二者表示的频数分布一致。
第四节探索性数据分析:
茎叶图和箱线图
一、茎叶图:
又称“枝叶图”,能同时排列定量数据顺序并提供分布形态的深入信息
(1)茎叶图由两部分组成:
茎与叶。
茎:
通常由每组数的高位数值形成,按组竖立在左边;叶:
通常由每组数的低位数值形成,按组横排在“茎”的右边。
(2)茎叶图制作
1>将每个数据的十位数作为茎,列在一条竖线的左边,在这条竖线的右边记录每个数据的最后一个数字作为叶。
2>将所有数据分别列示在竖线两侧
3>对竖线右侧每一行数据进行大小排序
4>为更清楚地显示数据的分布状况,将每根茎右侧的叶子用矩形框住
(3)茎叶图的特点
1>优点:
比较容易手工绘制;没有原始数据信息的损失,所有数据信息都可以从图中得到;数据可以随时记录,随时添加,方便记录与表示。
2>.缺点:
只便于表示两位有效数字的数据,且只方便记录两组数据,当样本数据较多时,每个数据都要占据空间,很不方便
二、箱线图:
由一组数据的最大值、最小值、中位数、上下四分位数绘制而成的统计图形,从未分组数据来显示并分析数据的分布特征。
通过箱线图的形状可以看出数据分布的特征:
短的一段分布密集,长的一段分布稀疏
第五节两个变量间关系的图形显示:
散点图
散点图:
用二维坐标描述两个数值型变量之间关系的一种图形。
1、它用坐标横轴代表变量x,纵轴代表变量y,每对数据(x,y)在坐标系中用一个点(数据点)表示,n对数据点在坐标系中形成的图就称为散点图。
2、两变量散点图、添加趋势线的散点图、重叠散点图、矩阵散点图(同时显示比较多个变量两两之间的关系)
第三章描述统计:
数值方法
第一节集中趋势的度量
一、均值
1、均值:
就是算术平均数,是集中趋势的最主要测度值。
它是一组数据的均衡点所在,体现了数据的必然性特征,易受极端值的影响
2、均值的算法
(1)简单均值:
未经分组整理的原始数据,其均值的计算就是直接将一组数据的各数值相加除以数值个数。
设一组数据为:
X1,X2,…,Xn
(2)加权均值:
根据分组整理的数据计算均值,要以各组变量值出现的次数或频数为权数计算加权的均值。
设原始数据被分为k组,各组变量为X1,X2,…,Xn;相应的频数为f1,f2,…,fk
&&另:
算术平均数的计算方法
权数:
指变量数列中各组标志值出现的次数,是变量值的承担者,反映了各组的标志值对平均数的影响程度
·均值的数学性质
1>数值观测值与均值的离差之和为0
2>数值观测值与均值的离差平方和最小
3>均值易受极端值影响
二、众数
1、众数:
一组数据中出现次数最多的变量值,用M0表示。
适合于数据量较多时使用;不受极端值的影响;一组数据可能没有众数或有几个众数
2、数值型分组数据的众数
(1)众数的值与相邻两组频数的分布有关
(2)相邻两组的频数不相等时,众数采用下列近似公式计算
上限公式下限公式
(3)该公式假定众数组的频数在该众数组内均匀分布
三、中位数
1、中位数:
一组数据按从小到大排序后,处于中间位置上的值,用Me表示。
它不受极端值的影响。
各变量值与中位数的离差绝对值之和最小,即
2、中位数的位置
33、分组数据的中位数:
用于数值型分组数据;根据位置公式确定中位数所在的组;下限与上限计算公式分别为:
且该公式假定中位数组的频数在该组内均匀分布
四、分位数
1、分位数的概念:
将全部数据分为几个等份的分分位点,各分位点上的数
2、四分位数:
排序后处于25%和75%位置上的值,不受极端值的影响
3、分位数的位置
五、众数、中位数和均值的关系
当分布为适度偏态时,三者之间近似的数量关系是:
众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:
根据这一关系,可以得到以下三个关系式:
六、众数、中位数、均值的特点和应用
1、众数:
不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用
2、中位数:
不受极端值影响、数据分布偏斜程度较大时应用
3、均值:
易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用
第二节离散程度的度量
1、离散程度:
测度各变量值远离其中心值的程度,有以下的作用:
(1)判断平均数对一组数据代表性的高低
(2)离散程度的测度值可以对社会经济活动过程的节奏性和均衡性进行评价
(3)离散程度的测度值是统计推断理论中一个很重要的基础指标
(4)离散程度的测度值是衡量风险大小的重要指标
2、全距:
又称极差。
一组数据的最大值与最小值之差,用R表示。
它是离散程度的最简单测度值;易受极端值影响;未考虑数据的分布
计算公式
3、内距:
也称四分位差,即上四分位数与下四分位数之差,反映了中间50%数据的离散程度;不受极端值的影响;可用于衡量中位数的代表性
内距=QU–QL
4、方差与标准差
(1)方差:
各变量值与其均值离差平方的均值
(2)标准差:
方差的平方根
&&离散程度的测度值之一;最常用的测度值;反映了数据的分布;反映了各变量值与均值的平均差异;根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差;可用于衡量均值的代表性大小
(3)总体方差和标准差样本方差和标准差
(4)注解:
样本方差自由度
·一组数据中可以自由取值的数据的个数
·当样本数据的个数为n时,若样本均值x确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值。
例如,样本有3个数值,即x1=2,x2=4,x3=9,则x=5。
当x=5确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值
·样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量
(5)方差的数学性质
1>变量的方差等于变量平方的平均数减去变量平均数的平方
2>各变量值对算术平均数的方差,小于等于对任意常数的方差
5、标准分数:
标准分也称标准化值或Z值,它对某一个值在一组数据中相对位置的度量,可用于判断一组数据是否有离群点;用于对变量的标准化处理
·计算公式
当一组数据对称分布时
(1)约有68.27%的数据在平均数加减1个标准差的范围之内
(2)约有95.00%的数据在平均数加减1.96个标准差的范围之内
(3)约有95.45%的数据在平均数加减2个标准差的范围之内
(4)约有99.73%的数据在平均数加减3个标准差的范围之内
6、离散系数(变异系数):
标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V表示。
第三节分布形态的度量
1、偏态:
指数据分布的不对称性,是对数据分布偏斜程度的测度。
2、对数据分布不对称性的度量值称为偏态系数
偏态系数SK=0为对称分布
偏态系数SK>0为右偏分布或正偏分布,正偏离差值较大
偏态系数SK<0为左偏分布或负偏分布,负离差数值较大
|SK|数值越大,表示偏斜程度越大
(1)根据原始数据计算
(2)根据分组数据计算
3、峰度:
指数据分布的平峰或尖峰程度。
4、对数据分布峰度的度量值称为峰度系数,记为K。
峰度通常与标注正态分布相比较而言,若一组数据服从标准正态分布,K=0;如果K不为零,表明分布比标准正态分布更平或更尖,成平峰分布或尖峰分布。
峰态系数K=0为峰度适中
峰态系数K<0为扁平分布
峰态系数K>0为尖峰分布
·根据原始数据计算
第四章抽样与抽样分布
第一节抽样技术
一、抽样技术中的基本概念
(一)总体和样本
1、总体:
所研究的全部元素的集合,其中的每一个元素称为个体。
分为有限总体和无限总体
(1)有限总体的范围能够明确确定,且元素的数目是有限的
(2)无限总体所包括的元素是无限的,不可数的
2、样本:
从总体中抽取的一部分元素的集合。
构成样本的元素的数目称为样本容量
(1)样本容量:
一个样本所包含的总体基本单元数
·n<30的样本叫小样本
·的样本叫大样本
(2)数理统计中,在用样本数量特征推断总体数量特征时,大小样本使用的推断方法有所不同.社会经济现象的抽样推断中,绝大多数采用的是大样本
(二)参数和统计量
1、参数:
研究者想要了解的总体的某种特征值。
总体参数通常用希腊字母表示,所关心的参数主要有总体均值()、标准差()、总体比例(π)等。
2、统计量:
根据样本数据计算出来的一个量。
样本统计量通常用小写英文字母来表示,所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等
(三)抽样框与抽样单元
1、抽样框:
是包括全部总体单位的一个框架,用来代表总体,从中抽取样本单元。
(1)抽样框的主要形式:
名单抽样框;区域抽样框,比如地图;时间表抽样框
(2)抽样框的意义:
实施抽样的基础,抽样框的编制影响抽样的随机性和抽样效果的实现
(3)对抽样框的基本要求:
一个理想的抽样框应该与目标总体一致,不重不漏;应尽可能地提供抽样单元的名称和地理位置、联系方式等信息;还应尽可能多地提供与研究的目标量有关的辅助信息,以便调查人员利用这些辅助信息搞好抽样设计,提高抽样估计的效率,比如:
对企业做调查,除了有企业名单目录外,还应该有企业的联系方式、法人代表、注册信息,甚至近期主要经济或财务指标的数据等
2、抽样单元:
构成抽样框的基本要素,它可以是自然形成的,也可以是人为划分的。
·抽样单元与总体基本单元(Baseunit)的关系有两种:
(1)抽样单元=总体基本单元。
比如,简单随机抽样,分层抽样,系统抽样等
(2)抽样单元=总体基本单元的集合。
比如,整群抽样,多阶段抽样
(四)抽样方法和样本可能数目
1、重置和不重置抽样
(1)重置抽样:
也叫重复抽样/回置抽样,是指从总体的N个单位中抽取一个容量为n的样本,逐个抽取。
每次抽出一个单位记录后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。
同一总体单位有可能被重复抽中;每次都是从N个总体单位中抽取;n次抽取就是n次相互独立的随机试验
(2) 不重置抽样:
也叫不重复抽样/不回置抽样,指抽中单位不放回总体中,下一个样本单位只能从余下的总体单位中抽取。
也可以一次抽n个。
每次抽取是在不同数目的总体单位中进行的;同一总体单位不可能被重复抽中;n次抽取可看作是n次互不独立的随机试验。
2、样本可能数目M:
按某抽样方案从总体中抽样,可能抽出的所有的样本的个数
(1)考虑顺序的重复抽样的样本可能数目
(2)考虑顺序的不重复抽样的可能样本数目(独立事件乘法原理)
(3)不考虑顺序的重复抽样的可能样本数目(组合)
(4)不考虑顺序的不重复抽样的可能样本数目
二、抽样技术
(一)概率抽样:
根据一个已知的概率来抽取样本单位,也称随机抽样
·特点:
按一定的概率以随机原则抽取样本;抽取样本时使每个单位都有一定的机会被抽中;每个单位被抽中的概率是已知的,或是可以计算出来的;当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
1、简单随机抽样/纯随机抽样:
从总体N个单元中随机地抽取n个单元作为样本,每个单元进入样本的概率是相等的。
比如利用随机数表、抽签、摇奖机等进行的抽样都是srs
是最基本的抽样方法,是其它抽样方法的基础
(1)、特点:
适用于均匀总体;直接从抽样框中取样,简单、直观;用样本统计量对目标量进行估计比较方便
(2)、局限性:
当N很大时,不易构造抽样框;抽出的单位很分散,给实施调查增加了困难;没有利用其它辅助信息以提高估计的效率
2、分层抽样(类型抽样):
抽样分两步完成,即先分层→后各层内独立抽样。
(1)、将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本单元构成样本
(2)、优点:
更能保证样本的结构与总体的结构相近,从而提高估计的精度;抽样方法灵活,组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目标量进行估计
3、系统抽样:
抽样分三步完成,先排序→确定起始单元→确定其他样本单元。
将总体中的所有单元(抽样单元)按一定顺序排列,在规定的范围内随机地抽取一个单元作为初始单元,然后按事先规定好的规则确定其它样本单元。
比如,等距抽样,先从数字1到k之间随机抽取一个数字r作为初始单元,以后依次取r+k,r+2k…等单元
(1)、优点:
操作简便,可提高估计的精度
(2)、缺点:
对估计量方差的估计比较困难
4、整群抽样:
抽样分两步完成,分群→抽群。
将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
(1)、特点:
抽样时只需群的抽样框,可简化工作量;调查的地点相对集中,节省调查费用,方便调查的实施
(2)、缺点:
估计的精度较差(样本单位过于集中,抽样误差大)。
5、多阶段抽样/多级抽样:
指分两个或两个以上的阶段来完成抽取样本单元的过程。
如,我国的城市居民住户调查采用三或四阶段抽样
——第一阶段:
抽选调查城市
——第二阶段:
从抽中城市中抽选居委会(或抽街道办事处再抽居委会)
——第三阶段:
从抽中的居委会中抽取调查户
·多阶段抽样可根据需要和可能,将几种抽样方式结合运用,比如第一阶段用PPS抽样,第二阶段用分层抽样,第三阶段用简单随机抽样等
6、不等概抽样:
总体中各单元被抽中的概率不相等。
这个概率通常与各单元的某个辅助变量大小成正比例
(1)①各单元被抽中的概率称为“入样概率”。
设总体含有N个单元,那么各单元入样概率用Zi(i=1,2,…,N)表示。
在不等概抽样下,Zi是不完全相同的
②“Zi与某一辅助变量Xi大小成正比例”。
如果某一单元的辅助变量越大,则该单元被抽中的概率越大。
所以,辅助变量也称为入样指标
Zi=Xi/∑Xi,(i=1,2,…,N)∑Zi=1
&&&是否需要入样指标来确定入样概率,成为不等概率抽样和等概率抽样的本质区别
(2)不等概抽样作用或适用性
①各抽样单元在总体中所占的地位不一致
居民住户调查中,调查家庭的日常消费支出或娱乐/保健品等奢侈消费支出,会采用不同的抽样设计
为估计一城市的商业销售总额,对各商业网点进行调查
以船舶为抽样单元,对船舶运输量进行调查
以个人储户为抽样单元,调查储户对银行服务的满意度
以个人用户为抽样单元,调查移动业务用户的满意度
②调查的总体单元与抽样总体的单元不一致的情况,比如:
大型企业对职工家庭情况进行调查
某小学对在校生家庭情况进行调查
③改善估计量.不等概抽样还广泛应用于由于种种原因不能或不需要对基本单元直接抽样的情形,比如整群抽样(CL:
clustersampling)中,若群大小(用群内包含的BU数Mi表示)相差较大,常采用对群的不等概抽样;多阶段抽样(MS:
Multi-Stagesampling)中,若初级单元大小(用所包含的次级单元数目表示)相差较大,则常采用对初级单元的不等概抽样
比率估计中消除小样本比率估计量偏倚的方法——水野法
第二节正态分布及几个重要的统计分布
一、连续型随机变量的概率分布
(1)连续型随机变量可以取某一区间或整个实数轴上的任意一个值
(2)它取任何一个特定的值的概率都等于0
(3)不能列出每一个值及其相应的概率
(4)通常研究它取某一区间值的概率
(5)用概率密度函数的形式和分布函数的形式来描述
1、正态分布:
描述连续型随机变量的最重要的分布。
许多现象都可以由正态分布来描述。
可用于近似离散型随机变量的分布,例如:
二项分布。
经典统计推断的基础
(1)概率密度函数
f(x)=随机变量X的频数
=正态随机变量X的均值
=正态随机变量X的方差
=3.1415926;e=2.71828
x=随机变量的取值(-(2)正态分布函数的性质
1>图形是关于x=对称的钟形曲线,且峰值在x=处
2>均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”
3>均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。
越大,正态曲线扁平;越小,正态曲线越高陡峭
4>当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交