第二章第二节 统计整理.docx
《第二章第二节 统计整理.docx》由会员分享,可在线阅读,更多相关《第二章第二节 统计整理.docx(22页珍藏版)》请在冰点文库上搜索。
![第二章第二节 统计整理.docx](https://file1.bingdoc.com/fileroot1/2023-6/28/e826f241-fa8c-41e2-807e-2f79a8ae22a5/e826f241-fa8c-41e2-807e-2f79a8ae22a51.gif)
第二章第二节统计整理
第二节统计整理
一、统计整理的概念和意义
统计整理是指根据统计研究的目的和任务,对统计调查或科学实验获得的大量原始资料进行科学的分类、汇总,或对已经加工过的资料进行再加工,使之成为系统化、条理化、标准化的能反映总体特征的综合统计资料的工作过程。
通过统计调查或实验,我们取得了大量的原始资料,但这些原始资料一般是分散的、不系统的个体资料。
它们只能说明总体各单位的具体情况,而不能说明总体特征,难以反映总体的全貌情况。
用这样的资料,无法从总体上认识和研究社会经济现象的数量表现,无法揭示社会经济现象发展变化的本质和规律。
因此,必须对这些分散的、不系统的个体资料采用科学的方法进行加工、整理、汇总,使之成为系统化、条理化、标准化的能反映总体特征的综合统计资料,并以此计算各种反映总体特征的综合指标,认识社会经济现象的总体特征和全貌,认识、分析社会经济现象的本质和发展变化规律。
可见,统计整理不是单纯的数据汇总,而是运用科学的方法,对调查资料进行分类和综合,从感性认识上升到理性认识。
它是从对社会经济现象个体量的认识到社会经济现象总体量的认识的连接点,是统计调查的继续,是统计显示与分析的前提和基础,在整个统计工作中起着承前启后的作用。
统计数据整理的质量,直接影响着统计工作的成果。
二、统计整理的内容
统计整理的内容,主要包括以下几个方面:
(1)对原始资料进行审核与检查,如果发现被调查单位的资料不齐全或有差错,要及时查询订正。
(2)对各项指标进行综合汇总,并按调查和分析目的的要求进行各种分组,汇总出各组单位数和各项指标的总数。
(3)将汇总的结果编制成统计表与统计图,以便进一步分析和应用。
三、统计整理的方法与步骤
(一)统计分组
统计分组是根据研究的任务和对象的特点,按照某种分组标志将统计总体分为若干组成部分。
理解统计分组的概念要注意三点:
(1)统计分组的对象是总体。
(2)统计分组应有分组标志。
(3)统计分组对总体而言是“分”,对总体单位而言是“合”。
统计分组的关键是选择分组标志与划分各组界限。
选择分组标志,是确定将统计总体区分为各个性质不同的组的标准或依据。
划分各组界限,是根据分组标志,划定各相邻组间的性质界限和数量界限。
将统计资料按其分组标志进行分组的过程,实际上就是统计分布数列形成的过程,如图2-4所示。
分布数列是指在统计分组的基础上,将总体单位按类入组,并汇总各组内的单位数,形成总体中单位数在各组间的分布。
由上述概念可看出,分布数列包含有两个组成要素,即分组和次数。
根据分组标志的不同,分布数列可分为品质(属性)数列和变量数列。
根据分组标志的不同,分布数列可分为品质(属性)数列和变量数列。
按品质标志分组,观察总体各单位分布情况的分布数列叫品质数列,见表2-5。
按某一数量标志分组,观察总体各单位分布情况的分布数列叫变量数列,见表2-6。
(二)统计汇总
统计汇总是指对统计分组后的资料进行汇总和计算,计算出各组指标和综合指标。
统计汇总计算的指标包括总量指标、相对指标和平均指标。
统计汇总的技术包括手工汇总和计算机汇总,其中,手工汇总又包括划记法、过录法、折叠法、卡片法和分票法等。
(三)编制统计表和统计图
在经过统计汇总得到表明社会经济现象总体和各个组的单位数及一系列标志总量的资料后,将这些资料用统计图表展示出来,就得到统计整理的最终结果。
四、品质数据的整理
(一)品质型分类数据的整理
在整理数据时首先应列出所分的类别;然后,计算出每一类别的频数、频率或比例、比率,形成一张数据频数分布表;最后,根据需要选择适当的图形进行展示,以便对数据及其特征有一个初步的了解。
下面结合实例说明如何建立和解释品质数据的频数分布。
(二)品质顺序数据的整理
对于品质顺序数据,除了可使用上面介绍的分类数据的整理和表示方法外,还可以计算累积频数和累积频率(百分比)。
【例2-1】某手机专营店为了解人们在购买手机时关注的因素,随机调查了100名光顾店面的顾客,当问及“您在选购手机时最关注的问题是什么”时供选择答案为:
A.价格;B.品牌;C.售后服务;D.功能;E.外观。
得到回答的原始数据如表2-7所示。
(1)频数与频数分布的操作。
落在某一特定类别(或组)中的数据个数,称为频数;
数据在各类别(或组)中的分配,称为频数分布;
各类别(或组)频数所占的比重,称为频率。
根据【例2-1】数据编制频数分布如表2-8所示。
经分类整理后,原始数据由杂乱无序变得简洁明了,从中可以很容易看出,关注“功能”的人数最多,共43人,占被调查总人数的43%;关注“品牌”的人数为30人,占被调查总人数的30%。
由此可见,现在人们购买手机时普遍关注的是功能与品牌。
(2)品质分类数据的图形描述。
统计数据除用统计表加以概括表达外,还可以用统计图显示。
统计图具有直观、鲜明、形象、便捷等特点,在表述统计数据时能够给人留下深刻的印象。
统计图的种类有很多,下面简要介绍统计图形中常用的条形图和柱形图。
图形的制作可以由计算机来完成,也可以用手工绘制。
条形图是用宽度相同的条形的高度或长短来表示数据多少的图形。
条形图可以横置或纵置,纵置时也称为柱形图。
在表示分类数据的分布时,条形图的高度或长度用以表示各类别数据的频数或频率。
绘制时,各类别可以放在纵轴,称为条形图;也可以放在横轴,称为柱形图。
通常用于显示品质分类数据分布的图形,在绘制时是以图的纵坐标表示分组(类),图的横坐标表示每组的频数或者频率,并在纵轴每组对应画出固定宽度的条形,延伸该条形的长度,直到等于横轴上标明的该组的频数或者频率为止。
为了强调每组数据都是独立的类别,这些条形应分离开来。
【例2-2】表2-8整理后的频数分布用条形图和柱形图表示,分别如图2-5和图2-6所示。
条形图或柱形图只能直观地描述单位数量,要更清楚地了解各单位数量总数之间的关系,可以用扇形图来表示。
【例2-3】要调查某个班内同学最喜欢的运动项目,全班共40人。
其中:
喜欢足球的8人;喜欢篮球的6人;喜欢排球的5人;喜欢乒乓球的12人;喜欢其他项目的9人。
根据数据绘制的扇形图,如图2-9所示。
在这个扇形图中,整个圆用以表示全班学生总数,扇形面积用以表示喜欢某个项目的学生数。
在扇形图中,频率通常转化为百分数来表示。
【例2-4】在一项城市住房问题的研究中,研究人员在甲、乙两个城市各抽样调查300户,采用问卷调查工具问题为:
您对您家庭目前的住房状况是否满意?
要求回答的类别为:
1.非常不满意;2.不满意;3.一般;4.满意;5.非常满意。
(1)频数与频数分布的统计。
将【例2-3】数据具体整理结果如表2-9和表2-10所示。
(2)顺序数据的图形描述。
品质顺序数据也可用柱形图来描述,如图2-8所示。
扇形图还可以画成截圆柱形的,通常称为饼状图。
与扇形图类似,饼状图反映的是各组次数所占的比例,一般用百分比表示,如图2-9所示。
通过图形来观察不同评价等级的人数比例要比看数字数据更清楚、更直观。
统计数据的分析
中位数是一种位置的代表值,其特点是不受数据极端值的影响,它主要用于测度带有顺序性的数据的集中趋势,但不适用于没有顺序意义的分类数据。
概括来讲,当数据分布的偏斜程度较大时,即当数据中存在极端值时,中位数对集中趋势的代表性较高。
因此,在研究社会居民收入、财产状况、人口年龄构成状况时,居民收入、人口年龄中位数比平均收入、平均年龄更能代表居民收入、财产状况、人口年龄状况等数据的集中趋势。
例如,根据2010年人口普查资料,我国人口年龄中位数为35.5岁,这个数字描述了我国人口年龄结构的水平,即当年我国人口年龄状况是有一半人口年龄大于35.5岁,一半人口年龄小于35.5岁。
变量数据的整理
(一)变量分布数列的概念
用数量标志进行分组所得到的分布数列,叫做变量分布数列。
若每一组别都是由单个的组值(整数或小数)表示,称为单项式变量分布数列;若每一组别都是由数域(区间)表示,则称为组距式变量分布数列。
(二)单项式变量分布数列的编制
(三)组距式变量分布数列的编制
组距式变量分布数列又分为等距变量分布数列、开口组组距变量分布数列和异距变量分布数列。
【例2-5】某生产组20名工人同种产品日产量如下(单位:
件):
这是一个离散型变量,其变量值不多,变动范围不大,宜编制单项式变量分布数列。
编制步骤如下:
(1)按变量值大小顺序排列:
(2)每种变量值为一组(重复者只取一个),顺序排列为7组:
(3)列入表中并汇总出各组频数,如表2-11所示。
将表2-7绘制成频率图,见图2-10所示。
在分组整理单项式变量分布数列中,可以通过观察直接寻找到众数。
【例2-6】某地区男胶鞋销售量资料如表2-12所示,试确定众数。
从表中可以直接看出,众数组就是销售量最多的124.0千双这个组,25厘米就是众数。
等距分组即标志值在各组保持相等的组距。
在变量值变动比较均匀,没有突然的大起大落时,可采用等距分组。
等距分组由于各组的组距相等,便于各组单位数和变量值的直接比较,也便于计算各种综合指标。
下例适用于编制一个等距变量数列。
【例2-7】对某班40名学生某科某次考试成绩按试卷登记得到如下资料:
编制等距数列一般有以下步骤:
(1)将原始数据按顺序排列起来,并确定变量性质。
根据上列,对数据按成绩由低到高排列可得到:
该例变量的性质为连续变量。
确定变量性质,是为了正确进行数列的编制和确定组限的表示方法。
(2)计算全距。
确定全距是为了适当进行分组。
全距是指在全部变量值中最大变量值与最小变量值的差距,全距从原始数据中可求出。
全距=最大变量值-最小变量值
(3)确定组限、组距和组数。
组限是指每个组的两端变量值。
其中,每个组的起点值(或称最小值)为下限、每个组的终点值(或称最大值)为上限。
所谓组距是指每个组中的上限值与下限值之差。
组距可按下式计算:
组距=上限-下限
所谓组数是指某个变量数列应划分为多少个组。
确定组距与组数的具体方法如下:
在计算组数与组距时,所使用的变量最小值应略低于实际资料的最小值,自50分开始,最大值应略高于实际资料最大值,取至100分,则全距为100-50=50。
上式中全距是既定的,而组数和组距是可变的。
一般来讲,组距应尽可能取5或10的整倍数,而组数则必须是整数。
若组距为5,则:
若组距为10,则:
上例中,宜采用以10为组距,分为5组。
(4)写出组限并据以归类汇总计算各组次数。
所谓归类汇总,是指依据各个总体单位的具体标志值,将其划归某一具体组之中。
在归类汇总时,要遵循“不重复、不遗漏”的基本原则。
不重复是指所确定的组限必须使各组的范围互斥,以便确保每个数据只能归入唯一的组,不能模棱两可,或归属不定。
不遗漏是指所确定的组限必须包容全部原始数据,不允许将任何数据遗漏在外,即要求所确定的最小的组限不大于原始数据中的最小值,所确定的最大的组限不小于原始数据中的最大值。
连续变量由于不能一一列举,并且有中间数值,因此相邻组的上下限无法用一个确定的数值来表示,相邻两组的组限应该重叠,即相邻两组之间的组限用同一个数值来标记,因此,也称重限分组。
它适用于编制连续型组距式变量数列。
有时对离散型变量进行分组,也可以采用重叠组限的形式即用各组的上限同时作为下一组的下限,处理变量时,仍遵循“上组限不在内”的原则,这样比较简化,同时也为计算组中值提供了方便。
应注意处理好恰巧是组限的变量值的总体单位的归类问题,一般应按“上组限不在内”的原则,将此变量值归入下限所在组。
按这种标记法,若规定“不含上限”,则例中得60分者应归入60~70分组中,得70分者应归入70~80分组中,得80分者应归入80~90分组中,得90分者应归入90~100分组中,如表2-13所示。
(5)编制整理表。
即将数据用格形式表现出来,左端是各组的变量值,右端是各组变量值出现的频数。
如表2-13所示。
归类汇总后,便可计算各组的频数,即各组总体单位个数的累加数,如表2-14所示。
各组频数的加总之和,应等于总频数;各组频率之和应等于1或100%。
在组距分组中,如果全部变量中的最大值和最小值与其他数值相差悬殊,即变量值中有特大或特小的极端值,为避免出现空白组(即没有变量值的组)或个别极端值被遗漏,第一组和最后一组可以采取“××以下”为缺下限,“××以上”为缺上限这样的开口组标记法,开口组的组距通常以相邻组的组距作为其组距。
【例2-8】对某班40名学生某次考试成绩按试卷登记得到如下资料:
(1)将原始资料按变量值大小的顺序重新排列。
(2)编制开口组组距变量数列。
按等距变量编数列,其结果如表2-15.
在分组的基础上进行归类汇总时,要遵循“不重复不遗漏”的基本原则。
对于重叠设置的连续型组距数列来说,应注意处理好恰巧是组限的标志值的总体单位的归类是否与“上组限不在内”的原则相抵触,即应注意变量的某些值是否会因规定不含上限而被摒弃在外。
例如,若按表2-15形式分组,则得100分者便被摒弃在外了。
这时只有采取“开口组”的方式来解决这一矛盾,这便是“开口组”用途之一;而成绩在60分以下只有2人,特意为这2人开设30~40,40~50,50~60三个组没有必要,且此2人皆属不及格者,性质相同,可按“组内同质”性规定原则处理,故采用“开口组”法解决,这是开口组的用途之二。
重新编制该班学生考试成绩的开口组组距变量数列,其结果如表2-16所示。
两个开口组,第一组与最末组组距可用邻组组距,即均为10。
每个组上限与下限的中点值叫组中值,它是各组变量值的代表性水平。
组中值的一般计算方法是:
闭口组(上下限齐全)的组中值,可按下列公式计算:
缺上限或下限的开口组的组中值,可按下列公式计算:
现用表2-12中的资料,来说明组中值计算公式的运用:
其余组组中值的计算以此类推:
从表中可以直接看出,众数组就是销售量最多的124.0千双这个组,25厘米就是众数。
异距变量分布数列的编制方法
组距不相等的变量分布数列,叫做异距变量分布数列或不等距变量分布数列。
异距数列的分组情况比较复杂。
我们知道,任何事物都有质和量两个方面。
没有质,也就没有量;没有量,也就没有质。
质与量共存于同一个事物中,二者相互依存,相互制约,是辩证的统一。
统计所研究的量,都有质的规定性,离开事物质的规定性,统计就不能研究它的量。
同时,量变会引起质变。
任何事物的发展变化总有一个数量界限,达到或超过一定的数量界限就会发生质的变化。
因此,在编制异距变量分布数列时,要同时考虑质与量两个方面,即品质标志和数量标志。
现仍用表2-16中的资料,来说明异距变量分布数列的编制方法。
根据教育部规定,对学生学习成绩的考核评定分为:
优、良、及格、不及格四个等级。
将这一品质标志量化,则可编制出异距变量分布数列,如表2-17和表2-18所示。
常用的用于描述组距式变量分布数列的图形有直方图、折线图、圆滑曲线图。
(1)直方图。
直方图是指在横纵轴之间以直方条形来显示频数分布的图形。
对于等距数列,左纵轴表示频数,右纵轴表示频率,横轴表示变量值。
频数和频率的显示应与实际资料的计算相符,频数要与相应的频率一一对应表示。
例如,根据表2-14的等距数列可画出直方图,如图2-11所示。
(2)折线图。
将直方图各条形顶端中点两两连接起来,所形成的图形叫折线图。
它是在直方图基础上形成的,如图2-12所示。
当各组组距无限缩小时,折线图相邻条形的中点将无限接近,折线图的折现变圆滑,进而成为曲线。
【例2-9】某林地上有云杉1000株,随机抽取100株,分组整理得到分布数列,如表2-19所示。
现将表2-19的资料绘制成圆滑曲线图,如图2-13所示。
六、统计表
(一)统计表的概念及作用
统计资料整理的结果可以用不同的形式来表现,统计表是应用最广泛的形式,它以纵横交叉的线条所绘制的表格来表现统计资料。
广义上的统计表包括统计工作各个阶段中所用的一切表格;狭义上的统计表则是指统计整理与分析研究阶段所使用的表格。
这里讨论狭义上的统计表。
统计表是表现统计资料的一种有效形式,它的主要作用有:
①阅读方便,一目了然,比较直观,可在短时间内给人以明确的概念;②通过合理,科学地排列统计资料,便于读者进行对照比较,从而发现现象之间的规律;③便于汇总和审查;④便于计算和分析。
(二)统计表的构成和内容
1.统计表的构成
从统计表的构成来看,统计表有总标题、横行标题、纵栏标题和指标数值四部分。
有些统计表在表下还增加了补充资料、注解、附记、资料来源、指标的计算方法、填表单位、填表人员以及填表日期等内容,一般称为表外附加。
统计表的构成如表2-20所示。
图2-2 产品入库单的用途
总标题是统计表的名称,用来简明扼要地说明全表的内容,一般写在表的上端中部;横行标题是统计表横行的名称,在统计表中通常用来表示各组的名称,它代表统计表所要说明的对象,一般写在表的左方;纵栏标题是统计表纵栏的名称,在统计表中通常用来表示统计指标的名称,一般写在表的上方;指标数值列在各横行标题与各纵栏标题交叉处,统计表中任何一个数字的含义都由横行标题和纵栏标题共同说明。
2.统计表的内容
从内容来看,统计表可以分为两个组成部分:
一部分是统计表所要说明的总体及其分组的名称,这一部分习惯上称为主词;另一部分则是说明总体的统计指标,包括指标名称和指标数值,这一部分习惯上称为宾词。
以表2-20为例,这个统计表说明的是我国20××年工业企业的状况,按企业规模分为三个组,并列有合计,这一部分就是主词;企业单位数、工业总产值是指标名称,它和下边的指标数值一起称为宾词。
通常,统计表的主词列在横行标题的位置,宾词中指标名称列在纵栏标题的位置,但有时为了编排合理和阅读方便,也可以互换位置。
将统计表中的主词按照某一个标志进行分组而得到的表格,称简单分组表(见表2-20)。
将统计表中的主词按照两个或两个以上的标志进行层叠分组而得到的表格,称复合分组表(见表2-21)。
(三)统计表的编制规则
统计表的编制,无论主词的内容还是宾词指标的配置都要目的明确,内容鲜明,使阅读者能从表中看出研究现象的具体内容和情况。
因此,在制表时,首先要强调目的和要求,做到简明、紧凑、重点突出,避免过分繁琐。
编制统计表时必须注意以下规则:
(1)统计表的各种标题,特别是总标题的表达,应该十分简明、确切,概括地反映出表的基本内容。
总标题还应该标明资料所属的地点和时间。
(2)表中的主词各行和宾词各栏,一般应按先局部后整体的原则排列,即先列各个项目,后列总计。
当没有必要列出所有项目时,可先列总计,而后列出其中的一部分重要项目。
(3)如果统计表的栏数较多,通常要进行编号。
在主词和计量单位等行,用(甲)、(乙)、(丙)等文字标明;宾词指标各栏,用
(1)、
(2)、(3)等数字编号。
(4)表中数字应该填写整齐,对准位数。
当数字为0或因数小可略而不计时,要写上0;当缺乏某项资料时,用符号“…”表示;不应该有数字时,用符号“—”表示。
(5)统计表中必须注明数字资料的计量单位。
当全表只有一种计量单位时,可以把它写在表体的右上方。
如果表中需要分别注明不同单位时,横行的计量单位可以专设一栏;纵栏的计量单位,要与纵栏标题写在一起。
(6)必要时,统计表应加注说明或注解。
例如,某些指标有特殊的计算口径,某些资料只包括一部分地区,某些数字是由估算来插补等,都要加以说明。
此外,还要注明统计资料的来源,以便查考。
说明或注解一般写在表脚。
此外,统计表的格式一般是“开口”式的,即表的左右两端不画纵线。
好的统计表应该外形美观,一般设计成矩形,不要设计成正方形。
以上规则是一般规则,当然也要根据实际情况灵活掌握。