第三章 统计数据的整理与显示H.docx
《第三章 统计数据的整理与显示H.docx》由会员分享,可在线阅读,更多相关《第三章 统计数据的整理与显示H.docx(43页珍藏版)》请在冰点文库上搜索。
第三章统计数据的整理与显示H
第三章统计数据的整理与显示
学习目标
知识目标
了解统计数据整理与显示的基本内容;掌握选择分组标志、编制变量数列、制作基本统计图表的技术和方法。
能力目标
能够运用统计分组理论和频数分布技术,依据客观事物数据进行基本统计描述和分析。
第一节统计数据整理概述
一、数据整理及其类型
统计数据整理就是对搜集得到的初始数据进行审核、分组、汇总,使之条理化、系统化,变成能反映总体特征的综合数据的工作过程。
统计数据整理,是统计由对个别现象的认识上升到对总体现象认识的一个重要阶段,在统计研究工作中起着承先启后的作用,它既是数据搜集的继续和深化,又是数据分析的基础和前提。
根据数据搜集方式和研究任务的不同,统计数据的整理可以分为下列三种:
(一)定期统计报表数据的整理
定期统计报表数据的整理,就是对填报统计报表所需数据的整理,为证实填报统计报表做好准备。
为此,各基层企事业单位和各综合部门都应建立统计台帐。
统计台帐是为整理统计数据和进行统计分析而专门设置的一种系统积累统计资料的表册。
建立统计台帐,能够使统计数据比较全面、系统,有利于及时、准确地编制统计报表,也有利于系统地积累资料,避免资料散失。
(二)专题性统计数据的整理
专题性统计数据的整理是对专门调查搜集的统计数据进行的整理,以便满足专题统计研究的需要。
在专题性统计数据的整理中应密切结合各级领导部门的需要,根据专题性研究的目的确定整理的内容和题目,同时要注意资料的时效性、广泛性和政策性。
(三)历史统计数据的整理
历史统计数据的整理是对本部门、本单位的历史统计数据按照研究目的的要求,进行系统的加工和处理。
历史统计数据整理是统计部门一项十分重要的任务。
二、数据整理的原则和内容
(一)数据整理的原则
统计数据整理必须遵循目的性、联系性和简明性三原则。
目的性原则是指数据整理一定要按照预定的目的,进行科学的分组、分类,才能整理出研究问题所需要的综合指标。
联系性原则是指数据整理所涉及到的指标不仅是相互联系的,还存在一定的逻辑关系,选用什么统计指标以及指标之间前后关联的顺序如何,都是整理过程要特别注意的。
简明性是要求在整理过程中选用最简明的方法,以取得节约和实用的效果。
(二)数据整理的内容
统计数据整理的内容或程序一般有五个方面:
第一,根据统计研究的目的和要求,确定应该整理的指标,并根据分析的需要确定具体的分组;第二,对大量的原始数据进行预处理;第三,对各指标进行汇总,计算出各组单位数、总体单位数以及各组或总体的有关标志值之和;第四,将汇总整理的数据编制成统计表;第五,对统计数据进行系统积累。
三、数据的预处理
(一)数据的审核与筛选
在对统计数据进行整理时,首先要进行审核,以保证数据的质量,为进一步的整理与分析打下基础。
对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方面去审核。
完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。
准确性审核主要包括两个方面:
一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。
审核数据准确性的方法主要有逻辑检查和计算检查。
逻辑检查主要是从定性角度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象。
逻辑检查主要用于对定类数据和定序数据的审核。
计算检查是检查调查表中的各项数据在计算结果和计算方法上有无错误。
比如各分项数字之和是否等于相应的合计数,各结构比例之和是否等于1或100%,出现在不同表格上的同一指标数值是否相同,等等。
计算检查主要用于对定距数据和定比数据的审核。
对于第二手数据,除了对其完整性和准确性进行审核外,还应着重审核数据的适用性和时效性。
首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,是否需要重新加工整理等。
此外,还要对数据的时效性进行审核,一般来说,应尽可能使用最新的统计数据。
(二)数据的订正
对审核过程中发现的迟报、漏报及计算错误,应及时催报、补报、改正,并针对不同的错误作出不同的处理:
第一,对于可以肯定的一般错误,即代为更正,并向有关单位核对;第二,对于可疑之处或无法代为更正的错误,应通知原报单位复查更正;第三,对于在一个单位发现的有代表性的重大差错,除通知原报单位更正外,还要将差错情况通报尚未报送资料的单位,以防止类似错误的发生;第四,对于违反统计法规的,应查明责任,予以适当处理。
(三)数据的排序
数据排序就是按照一定的顺序将数据排列,以便初步显示数据的一些明显特征和规律,为研究者找到解决问题的线索。
此外,排序还有助于对数据的检查纠错,为分组、汇总提供依据。
对于定类型数据,可以按字母的顺序或笔画数的多少顺序排序;对于定距数据和定比数据,可以按递增顺序排列或按递减顺序排列。
排序后的数据称为顺序统计量。
第二节 统计数据分组
一、统计数据分组的意义
(一)统计数据分组的含义
统计数据分组是指根据统计研究的目的和要求,将总体单位或全部数据按照一定的标志划分成若干类型(组),使组内的差异尽可能小,组间的差别尽可能明显,从而使大量无序的、混沌的数据变为有序的、反映总体特征的资料。
(二)统计分组的作用
统计分组在统计认识过程中的基本作用主要表现在以下几方面。
1.划分现象的不同类型
统计分组的最基本作用,就是把复杂自然或社会现象划分为各个性质不同的组成部分,以认识事物质的差别。
例如,把社会产品划分为生产资料和消费资料;将国民经济划分为第一产业、第二产业和第三产业等。
只有通过科学分组来划分现象的类型,才能正确地了解、研究现象的实质,发挥统计研究的作用。
2.反映总体的内部结构
在统计分组基础上,计算各部分占总体的比重可揭示总体内部结构,表明总体中各部分与整体以及各部分之间存在的数量关系,从而反映事物的构成特征和性质。
通过比较总体内部结构的动态变化还可以揭示现象发展变化过程和规律。
3.分析现象之间的依存关系
自然和社会经济现象之间存在着广泛的相互依存关系,根据研究目的,按照一定标志对总体进行分组,然后通过观察相关标志的数量变化,可揭示相关事物之间的依存关系。
如农作物的耕作深度与收成率之间的关系、家庭工资收入与生活费支出之间的关系、市场商品价格与其需求量之间的关系等等,都可以通过统计分组来研究。
二、统计数据分组的类型
统计数据分组按反映研究对象的特点和分组的形式分类主要有以下类型。
(一)属性分组和变量分组
1.属性分组 属性分组是按照反映事物属性的品质标志进行的分组。
例如,人口按性别、民族、文化程度、职业、婚姻状况等标志分组,工业企业按经济类型、行业、地区等标志分组。
2.变量分组 变量分组是指按照数量标志进行的分组。
变量分组的组限是指各种不等的变量值。
例如,把冶金企业按生产能力分为:
10万吨以下、10—100万吨、100万吨以上三个组,把家庭总体按现有子女数分为0人(无子女)、1人、2人、3人、3人以上等组。
(二)简单分组、复合分组和分组体系
1.简单分组 所谓简单分组,就是将总体按一个标志进行的分组。
这种分组只能从某一方面去说明总体特征。
例如,工业企业按所有制性质分组:
国有企业
集体企业
股份合作企业
联营企业
2.复合分组 复合分组是按照两个或两个以上的标志,重叠起来对总体进行分组。
这里所谓重叠,是指在前一次分组结果的内部再进行下一次分组。
例如,某高等学校的学生总体按科别、性别、年龄等标志所进行的复合分组:
20岁以上
男生
20岁以下
文科 20岁以上
女生
20岁以下
学生 20岁以上
男生
20岁以下
理科20岁以上
女生
20岁以下
图3.1复合分组
采用复合分组能更深刻地反映总体的内部结构,更细致地分析问题。
但是,随着分组标志的增加,组数将成倍地增加,反而使总体结构表现复杂,不够明晰,故复合分组层次不宜过多。
3.分组体系 分组体系是按照两个或两个以上相互联系、相互补充的标志,对被研究对象进行平行分组所形成的体系。
分组体系可以从不同角度、不同方面对某一现象作出比较全面的说明。
例如,某地企业可按照所有制性质、产业和规模等标志进行平行分组构成如下分组体系:
(1)按所有制分
国有企业
集体企业
股份合作企业
联营企业
(2)按产业分
第一产业
第二产业
第三产业
(3)按规模分
年增加值10000万元及以上的企业
年增加值5000~10000万元的企业
年增加值1000~5000万元的企业
年增加值在1000万元以下的企业
三、统计数据分组的方法
统计数据分组的关键在于分组标志的选择和各组界限的划分。
(一)分组标志的选择
分组标志的选择是统计分组的核心问题,分组标志就是对统计总体进行分组的标准或依据。
选择正确分组标志,是统计分组能充分发挥其作用的前提。
总体单位一经分组,就突出了各单位在分组标志下的差异,同时则掩盖了总体单位在其他标志下的不同。
所以,同一总体由于选择的分组标志不同,对其认识可能会得出不同甚至相反的结论。
为了保证统计分组科学合理,选择分组标志必须遵循穷尽的原则、互斥原则和反映事物本质的原则。
(二)统计分组方法
分组标志一经选定,就要在分组标志变异范围内划定各相邻组间的性质界限和数量界限。
根据分组标志的不同特征,统计总体可以按品质标志分组,也可以按数量标志分组。
1 按品质标志分组
按品质标志分组是按对象的属性特征分组,它又分简单品质分组和和复杂品质分组两种情况。
(1)简单的品质标志分组 简单的品质分组是指分组标志一经确定,组的名称和组数也就随之确定,而且各单位应分在哪一组也比较明确,不存在组与组之间界限区分的困难分组。
例如,人口按性别分为男、女两组,具体到每一个人应该分在哪一组是一目了然的。
(2)复杂的品质标志分组 有些现象按品质标志分组是比较复杂的,如工业部门分类、人口职业分类等。
对这些复杂问题的分组,统计学上称为分类。
统计分类不仅涉及复杂的分组技术,而且涉及国家的政策和科学理论。
为保证各种分类的科学性,统一性和完整性,便于各个部门掌握和使用,国家统计局会同有关部门制定了统一的分类目录,在全国范围内实行。
如商品分类目录、工业产品分类目录、工业部门分类目录等。
在统计分类中,反映国民经济结构的基本分类主要有如下几种。
①经济形式分类,它是以生产资料所有制形式为基础的重要的经济分类。
②国民经济部门(行业)分类,我国采用部门、大类、中类和小类4级分类制。
③三次产业分类,它是在部门(行业)分类的基础上进行的。
④社会生产的甲乙部门分类。
它是根据马克思再生产原理,按产品的主要经济用途进行分类的。
⑤工业部门分类。
它是先把工业分为采掘业和制造业两大部分,然后再分为大类、中类、小类三个层次。
⑤隶属关系分类。
它是按企业的业务隶属关系和行政领导关系进行的分类。
⑦地区分类。
它是按我国现行的行政区划进行的分类。
⑧在业人口的职业分类。
它是以在业人口本人所从事的工作性质的同一性进行的分类。
2 按数量标志分组
按数量标志分组是指选择反映事物数量差异的数量标志,根据其变异范围区分各组界限,将总体划分为若干个性质不同的组成部分。
例如,研究居民家庭贫富状态时,按恩格尔系数(即食品类支出占整个居民家庭消费支出的比重)分组,将其在60%以上的划分为贫困家庭;50%~60%的为温饱家庭;40%~50%为小康家庭;40%以下的为富裕家庭。
再如,我国在研究人的成长状况时,按年龄分组,0~6岁为婴幼儿;7~17岁为少年儿童;18~59岁为中青年;60岁(其中,女性为55岁)以上为老年。
数量标志反映的是事物特定内容的数量特征,其概念是具体明确的,但按数量标志分组,并不是单纯地确定各组间的数量差异,而是要通过分组体现的数量变化来确定现象的不同性质和不同类型。
因此,根据变量值的大小来准确划分性质不同的各组界限并不容易,这要求在按数量标志分组时,首先分析总体中可能有多少种性质不同的组成部分,然后再研究确定各组成部分之间的数量界限。
根据总体各单位某一数量标志值的变动特征,可供选择的分组方式有单项式分组和组距式分组两种。
(1)单项式分组 单项式分组是指按每一个具体变量值对现象总体所进行的分组。
如工人按日产量分组(见表3.1)。
表3.1企业工人日产量完成情况表
按日产量分组(件)
工人数(人)
比例(%)
35
36
47
58
69
70
20
25
30
35
40
50
10.00
12.50
15.00
17.50
20.00
25.00
合 计
200
100.00
单项式分组一般适用于离散型变量,且变量值不多、变动范围较小的情况。
当离散型变量变动范围比较大、总体单位数又很多的情况下,若采用单项式分组,把每一变量值作为一组,则必然会使分组的组数过多,各组次数过于分散,不能反映总体内部各部分的性质和差异,从而失去了统计分组的真正意义。
至于连续型变量,由于其变量值无法—一列举,更不能采用单项式分组,因此在这些情况下就需要采用组距式分组方法。
(2)组距式分组 组距式分组是指按变量值的一定范围对现象总体所进行的分组。
在现象总体的变动范围内,将其划分为若干个区间,各区间内的所有变量值作为一组,其性质相同,组与组之间的性质相异。
与单项式分组相比较,各组的变量值不是某一具体的点值,而是一个区间。
例如,某市职工家庭户平均收入分组情况如表3.2所示。
组距式分组一般在变量值变动幅度较大的条件下采用。
在组距式分组中,涉及到组限、组距、组数、组中值等分组要素。
组限 组限是用来表示各组之间界限的变量值,是决定事物质量的数量界限。
其中,在每一组中最小的变量值为下组限,简称为下限;最大的变量值为上组限,简称为上限。
表3.2 某市某年职工家庭户平均收入情况表
按户年平均收入分组(千元)
户数(户)
占总户数比例(%)
3以下
3~4
4~5
5~6
6~7
7~8
8以上
900
2510
4360
2890
1440
650
630
6.7
18.8
32.6
21.6
10.8
4.9
4.7
合 计
13380
100.0
如上表中,左栏数据都是组限,在第三组中“4千元”是下限,“5千元”是上限。
组限的表达形式与变量的特点密切相关。
如果分组标志是连续型变量,则组限一般用重合式表达;如果分组标志是离散型变量,则组限一般用不重合式表达。
所谓重合式,就是相邻两组中,前一组的上限与后一组的下限数值相重叠,如上表中各组的组限3千元、4千元、5千元、6千元、7千元、8千元等既作为前一组的上限,又作为后一组的下限,这些变量值的归属,一般按“上限不在内”的原则处理。
所谓不重合式,是指前一组的上限与后一组的下限两变量值紧密相连但不重叠。
例如,在人口年龄构成抽样调查中将人口按年龄分为0~14岁、15~64岁、65岁及以上三组,组与组之间变量值紧密衔接,但不重叠。
凡年龄超过14岁但不满15岁的,属于0~14岁组;凡年龄超过64岁但不满65岁的,仍属于15~64岁组。
组距 组距是指一组变量值的区间长度,也就是每一组的上限与下限之间的距离。
即:
组距=上限-下限。
例如,表3.2中第二组的组距=4千元-3千元=1千元,第四组的组距=6千元-5千元=1千元。
组距式分组中,常常会遇见首末两组“开口”的情况,即用“×××以下”表示第一组,用“×××以上”表示最后一组,这些有上限无下限或有下限无上限的组称为开口组,如“3千元以下”和“8千元以上”即为开口组。
组距式分组中,根据各组的组距是否相等可以分为等距分组和异距分组。
各组组距都相等的分组称为等距分组,各组组距不相等的分组则称为异距分组,或称不等距分组。
组数 组数即分组个数。
在所研究总体一定的情况下,组数的多少和组距的大小是紧密联系的。
一般说来,组数和组距成反比关系,即组数少,则组距大;组数多,则组距小。
如果组数太多,组距过小,会使分组资料繁琐、庞杂,难以显现总体现象的特征和分布规律;如果组数太少,组距过大,可能会失去分组的意义,达不到正确反映客观事实的目的。
在确定组距和组数时,应注意保证各组都能有足够的单位数,组数既不能太多,也不宜太少,应以能充分、准确体现现象的分布特征为宜。
组中值 组中值即组距的中点数值,它是各组变量值的代表水平。
在重合式组限的分组中,它是各组上限与下限的简单平均数;在非重合式组限的分组中,它是本组下限与后一组下限的简单平均数。
即:
重合式组限组的组中值=
非重合式组限组的组中值=
当遇到缺少上限或下限的开口组时,其组中值以相邻组组距为依据计算。
即
缺下限组的组中值=
=邻组组中值-邻组组距
缺上限组的组中值=
=邻组组中值十邻组组距
应当指出,在组距式分组中,组距掩盖了分布在组内各单位的实际变量值,因此需要用组中值来代表该组的一般水平,这就是组中值在统计分析中被广泛采用的原因。
四、统计资料的再分组
统计资料的再分组是指把统计分组资料按某种要求重新划定各组界限,再将资料中的单位数或比重分布做出相应的调整。
例如,表3.3所示某工业部门劳动生产率的分组资料与研究目的不一致,主要是组数多、组距小,不利于简明地观察问题,需要进行再分组。
表3.3 某工业部门劳动生产率分组表
组
号
按劳动生产率分组(千元/人)
企业数比例(%)
职工数比例(%)
总产值比例(%)
1
2
3
4
5
6
7
8
9
10
6以下
6~7
7~8
8~9
9~10
10~11
11~12
12~13
13~14
14以上
11
14
10
15
20
9
12
4
2
3
6.20
9.48
10.78
16.26
20.00
12.93
11.54
5.40
2.69
4.72
9.66
12.83
13.00
16.78
19.12
10.98
9.04
3.82
1.84
2.93
合计
100
100.00
100.00
为了与相邻地区同行业的同类指标进行比较,将企业的劳动生产率重新划分
为四组,即人均产值在12.5千元以上的为优秀企业;在10~12.5千元之间的为良好企业;在7.5~10千元之间的为一般企业;7.5千元以下的为后进企业。
其再分组的结果如表3.4所示。
表3.4 某工业部门劳动生产率再分组表
组别
按劳动生产率分组(千元/人)
企业数比例(%)
职工数比例(%)
总产值比例(%)
A
B
C
D
7.5以下
7.5~10
10~12.5
12.5以上
30
40
23
7
21.07
41.65
27.17
10.11
28.99
42.40
21.93
6.68
合计
100
100.00
100.00
表3.4再分组的步骤如下:
第一步确定再分组的各自范围。
即A组包括原第1组、第2组的全部和第3组的一部分;B组包括原第3组的一部分和第4组、第5组的全部;C组包括原第6组、第7组的全部和第8组的一部分;D组包括原第8组的一部分和第9组、第10组的全部。
第二步计算新组各自相连组的比例。
可用相连组的部分组距除以相连组的组距之和而求得。
其具体计算过程为:
如
A组在相连组中所占比例=
=0.5
B组在相连组中所占比例=1-0.5=0.5
同理C组在相连组中所占比例=0.5,D组在相连组中所占比例=0.5
第三步确定再分组的对应单位数。
即计算各组变量值的区间范围所对应的单位数(此处为企业数比例、职工数比例和总产值比例)。
其具体计算过程为:
A组企业数比例=11%+14%+10%×0.5=30%,用同样方法可得到B组为40%,C组为23%,D组企业数比例为7%。
职工数比例和总产值比例的各组对应数可按上述计算过程类推,其结果见表3.4。
需要说明的是,再分组中用比例分摊相应的单位数是假定现象为均匀变动,而客观情况并非完全如此,故再分组的结果一般表现为近似值。
六、国民经济统计中的常用分类
(一)经济成份分类
按经济成份分类是为了反映我国经济中所有制成份的构成情况。
现阶段我国经济成份分类与代码如下:
表3.5 经济成份分类及代码
代码
分类及构成
1
11
12
2
21
22
23
公有经济
国有经济
集体经济
非公有经济
私有经济
港澳台经济
外商经济
(二)登记注册类型分类
按登记注册类型不同,可以将所有的企业分为内资企业、港澳台商投资企业和外商投资企业三大类。
(三)国民经济行业分类
《国民经济行业分类与代码》(国家标准)按基层单位的主要活动的同质性归口,将社会经济活动划分为门类、大类、中类和小类四级。
与此同时,采用了层次编码法(见表3.6)。
表3.6《国民经济行业分类与代码》(国家标准)统计表
门类
类别名称
大类数
中类数
小类数
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
农、林、牧、渔业
采掘业
制造业
电力、煤气及水的生产和供应业
建筑业
地质普查业、水利管理业
交通运输、仓储及邮电业
批发和零售贸易、餐饮业
金融、保险业
房地产业
社会服务业
卫生、体育和社会福利业
教育、文化艺术及广播电影电视业
科学研究和综合技术服务业
国家机关、政党机关和社会团体
其他行业
5
7
30
3
3
2
9
6
2
3
9
3
3
2
4
1
14
18
172
7
8
8
21
32
8
3
29
11
18
12
5
2
16
53
544
10
8
15
22
67
11
3
36
17
25
12
5
2
合计
92
368
846
(四)三次产业分类
三次产业分类是根据产业部门的发展顺序和层次进行的分类。
目前,我国三次产业的划分为:
第一产业:
农、林、牧、渔业。
第二产业:
工业和建筑业。
工业包括采掘业、制造业、电力煤气及水的生产和供应业。
第三产业:
除上述第一、第二产业以外的其它各行业。
又可分为两大部分,即流通部门和服务部门。
(五)机构部门分类
机构部门又称为制度部门或财务收支部门。
机构部门分类是从取得收入和支配收入、筹集资金和运用资金的财务决策权的同一性进行的分类。
我国的机构部门包括非金融企业部门、金融机构部门、政府部门和住户部门等四类。
第三节频数分布
一、频数分布及其种类
在分组的基础上,把所有数据或总体单位按组归并、排列,形成所有数据或总体各单位在各组间的分布,称为频数分布,又称为分布数列。
例如我国人口的性别分布(见表3.7)。
频数分布由两个部分构成,一是组别,二是分布在各组的频数(f)和频率(
)。
频率有两个性质:
(1)0≤
≤1;
(2)
=1。
频数分布的种类图示如下:
品质分布
频数分布单项式频数分布
变量分布等距式分布
组距式频数分布
异距式分布
图3.2频数分布的种类
(-)品质频数分布
品质频数分布,简称为品质数列,它是经过属性分组后形成的频数分布,其组别表现为一系列的概念或范畴,如表3.7所示。