统计学基础第三章统计整理.docx

资源描述

统计学基础第三章统计整理.docx

《统计学基础第三章统计整理.docx》由会员分享，可在线阅读，更多相关《统计学基础第三章统计整理.docx（22页珍藏版）》请在冰点文库上搜索。

统计学基础第三章统计整理.docx

统计学基础第三章统计整理

第三章统计整理

【教学目的】

1.深刻理解统计分组的作用，并且能够对不同的社会经济现象进行统计分组

2.运用分配数列对原始数据进行系统整理

3.制作统计表，运用计算机绘制统计图

【教学重点】

1.能够对不同的社会经济现象进行统计分组

2.运用分配数列对原始数据进行系统整理

3.制作统计表，运用计算机绘制统计图

【教学难点】

1.运用分配数列对原始数据进行系统整理

2.制作统计表，运用计算机绘制统计图

【教学时数】

教学学时为8课时

【教学内容参考】

第一节统计整理的意义

一、统计整理的意义

统计整理，就是根据统计研究的目的和任务的要求，对统计调查所搜集到的原始资料进行分组、汇总，使其条理化、系统化，从而得到表现总体特征的综合统计资料的工作过程。

对于已整理过的初级资料进行再整理，也属于统计整理。

统计调查取得的各种原始资料是分散的、不系统的，只能表明各个被调查单位的具体情况，反映事物的表面现象或一个侧面，不能说明事物的总体情况与全貌。

因此，只有对这些资料进行加工、整理，才能认识事物的总体及其内部联系。

例如，工业企业普查中，所调查的每个工业企业资料，只能说明每个工业企业的经济类型、注册资本、职工人数、工业总产值、工业增加值、实现利税等具体情况。

必须通过对所有资料进行分组、汇总等加工处理后，才能得到全国工业企业的综合情况，从而分析工业企业的构成、经营状况等，达到对全国工业企业的全面的、系统的认识。

统计整理是统计调查的继续，也是统计分析的前提，它在统计研究中起着承前启后的作用。

因此，资料整理得是否正确，直接决定着整个统计研究任务的完成，不恰当的加工整理，不完善的整理方法，往往使调查得来的丰富、完备的资料失去价值。

因此，必须十分重视统计整理工作。

二、统计整理的步骤

统计整理的基本步骤是：

（一）对原始资料进行审查。

1.审查被调查单位的资料是否齐全；

2.应审查数据是否准确。

审查的办法主要有：

①逻辑审查：

主要是从定性角度审查数据是否符合逻辑，内容是否合理，各项目或数量之间有无相互矛盾的现象。

例如，儿童年龄段的人所填的职务是高级工程师，对此显然违背逻辑的项目，应予以纠正。

②计算审查：

是指审查调查表中的各项数据在计算结果和计算方法上有无错误。

例如各分项数字之和是否等于相应的合计数，各结构之和是否等于1或100%，出现在不同表格上的同一指标数值是否相同等。

（二）对各项原始资料进行分组并综合汇总，计算出总体总量指标。

（三）将汇总的结果，以统计表或统计图的形式表现出来。

（四）将统计资料进行系统积累。

第二节统计分组

一、统计分组的概念

统计分组是根据研究任务的要求和现象总体内在的特点，将统计总体按照一定的标志划分为若干组成部分的一种统计分析方法。

统计分组的目的就是揭示各组之间性质上的差异。

分组的目的是使组与组之间产生性质上的差异，而使各自组内性质相同。

二、统计分组的作用

统计分组在统计分析中具有重要的作用，主要表现在以下几方面：

1.零星分散的统计资料，经过统计分组后，可以发现其特点及规律性

【案例】

某公司有100名工人，平均分成10个小组，生产定额为每人每天生产零部件500件，2月10日每个工人的完成生产定额情况如下（单位：

件）：

一组：

520520520520550550580580580580

二组：

540540540540540540540540540540

三组：

540540540540540540540540580580

四组：

520520520520530500500500500500

五组：

510510520520520500510510500500

六组：

530530530540620620620620720720

七组：

720720630630630630620620620620

八组：

650650650650650650650650650650

九组：

580580580580580580580580580580

十组：

480480480480480450450420430430

从上面资料中，我们只能大体看出各组完成生产定额情况有高有低，而很难看出100人总的情况及特点。

下面将资料进行分组并汇总进行观察，见表3-1。

表3-1某公司工人完成生产定额情况

按完成件数分组（件）

工人人数（人）

500以下

500～550

550～600

600～650

650～700

700以上

合计

100

从表3-1的资料中，我们可以对该车间生产情况做出综合评价，指出其特点：

①90%以上的工人完成了生产定额；

②在完成生产定额的工人中，略超过生产定额的工人（完成500～550件）占48%，超过生产定额较多的工人占42%。

总的结论是该公司工人生产定额完成得比较好，绝大部分能完成或超额完成生产定额。

如果不经过上述分组，就难以观察出这些特点。

2.把复杂现象总体区分为各个性质不同的组成部分，以认识现象之间质的差别

在复杂社会经济现象中，往往要将社会经济现象总体划分为性质不同的类型，这是统计工作中应用最广泛、最主要的分组。

这种分组也称为国民经济分类。

【案例】

我国经济成分按所有制形式划分为公有制经济和非公有制经济。

3.把不同时间的同一标志的内部结构资料排列起来，可以反映总体内部结构的变化

将社会经济现象总体按照某个标志分成若干组成部分，并计算总体内部各组成部分占总体的比重，以揭示总体内部的构成，表明部分与总体、部分与部分之间的关系。

【案例】

改革开放以来我国第一、第二、第三产业之间的关系见表3-2。

表3-2国内生产总值中各产业比例构成表单位：

1983年

1988年

1993年

1998年

2003年

2007年

第一产业

33.2

25.7

19.7

17.6

12.8

11.3

第二产业

44.4

43.8

46.6

46.2

46.0

48.6

其中：

工业

39.9

38.4

40.2

40.3

40.5

43.0

建筑业

4.5

5.4

6.4

5.9

5.5

5.6

第三产业

22.4

30.5

33.7

36.2

41.2

40.1

其中：

交通运输、仓储和邮电业

4.6

4.5

6.1

5.5

5.8

5.9

批发和零售业

3.3

9.9

8.0

8.2

7.3

资料来源：

2008年《中国统计年鉴》。

从表中的各组构成情况，可以看到国民经济内部产业结构随着时间的推移不断地发生变化，尤其明显的是，第三产业的比例在逐渐上升，说明人民的消费水平在不断提高。

4.可以揭示现象之间的依存关系

一切社会经济现象都不是孤立的，而是互相联系、互相依存、互相制约的。

【案例】

工业企业中，劳动生产率与利润的依存关系；商业企业中，商品销售额与流通费用的关系；人口统计中，吸烟者与肺癌患者的关系等都可以通过分组来解释。

三、统计分组的方法

统计分组的关键问题是正确地选择分组标志与划分各组界限。

（一）选择分组标志的原则

1.要根据研究的目的与任务选择分组标志

我们之所以选择一定的标志对总体分组，是为了达到一定的研究目的，完成一定的研究任务。

研究目的不同，选用的分组标志也有所不同。

【案例】

以某地区全部居民为总体，如果要研究其生活水平情况，则应将户均收入或人均收入等作为分组标志；如果要研究其居住的情况，则用人均居住面积等作为分组标志。

【能力训练】

对工人总体，如果研究目的是分析工人的文化素质，那么应选择的分组标志是什么？

如果研究目的是分析工人的劳动能力状况，又应选择什么作为分组标志呢？

2.要选择能够反映事物本质或主要特征的标志

在一定的研究目的下，往往会有若干个与研究目的有关联的标志可供我们选择，这时，就应选择与研究目的关系最密切、最能反映现象本质特征的作为分组标志。

【案例】

研究职工生活水平情况，可以用职工的收入水平作为分组标志，也可以用职工家庭成员平均收入水平作为分组标志。

究竟选用哪个分组标志更能充分反映职工的生活水平呢？

我们知道，职工的收入水平并不能确切反映职工的生活水平，还要看其赡养的家庭人口数以及其他家庭成员的收入。

因此，选用职工收入水平作为分组标志不够恰当，而应选用职工家庭成员平均收入水平作为分组标志。

3.要根据现象的历史条件及经济条件来选择

【案例】

研究职工生活水平时，要划分出困难户有多少，应选用什么作为划分标准？

显然要根据当时的物价水平及经济条件来确定，而且各个年代的标准也是不同的。

又如，解决温饱问题的标准、贫困县的标准、达到小康水平的标准等都要依据所处的历史、经济条件来确定。

（二）统计分组的种类

1.根据分组标志的性质不同分为两种：

（1）按品质标志分组。

按品质标志分组就是用反映事物属性的标志作为分组标志，它可以将总体单位划分为若干性质不同的组成部分。

【案例】

职工按性别、文化程度、技术等级、籍贯等标志分组；企业按经济类型、轻重工业、企业规模等标志分组等。

（2）按数量标志分组。

按数量标志分组就是用反映事物数量差异的标志作为分组标志，将总体各单位划分为若干个组。

【案例】

按家庭人口数对居民家庭的分组，按学习成绩将学生划分为成绩不同的组。

2.根据分组标志的个数不同分为两种：

（1）简单分组。

简单分组是指按一个标志进行分组，只反映总体某一方面的数量状态和结构特征。

比如职工按性别分组，企业按经济类型分组等。

（2）复合分组。

复合分组是指按两个或两个以上标志重叠分组，即先按一个主要标志分组，然后再按另一个从属标志在已分好的各组中分组。

比如，人口按性别先作简单分组，分为男、女两组后，再按受教育程度分为大学文化程度、中学文化程度等组。

复合分组能对总体做出更加全面和深入的分析，反映其内部类型和结构特征。

但复合分组的组数将随着分组标志个数的增加而成倍地增加。

因此，在进行复合分组时，分组标志个数不宜过多，要适当加以控制。

（三）统计分组体系

1.统计分组体系的概念

统计分组体系是根据统计分析的要求，通过对同一总体进行多种不同分组而形成的一种相互联系、相互补充，从多方面反映总体内部关系的分组体系。

在统计分析中，不论是简单分组还是复合分组，都只能对客观现象从一个方面或几个方面进行研究分析，不能说明现象的全貌，而统计分组体系则从不同的角度来对总体进行系统全面的观察分析。

它适用于对复杂现象总体的系统研究。

2.统计分组体系的种类

统计分组体系分为平行分组体系和复合分组体系两种。

（1）平行分组体系。

平行分组体系是对总体采用两个或两个以上标志分别进行简单分组。

【案例】

研究大学生毕业就业情况，可以采用以下平行分组体系：

项目

按学历分组

按性别分组

按学科性质分组

本科

专科

男学生

女学生

文科

理科

就业人数

合计

（2）复合分组体系。

复合分组体系是对总体同时选择两个或两个以上的分组标志重叠起来进行分组。

【案例】

研究大学生毕业就业情况，可以采用以下平行分组体系：

大学生分组

就业人数

本科

文科

男学生

女学生

小计

理科

男学生

女学生

小计

专科

文科

男学生

女学生

小计

理科

男学生

女学生

小计

合计

第三节分配数列

一、分配数列的概念与种类

将总体按某一标志进行分组，并按一定顺序排列出每组的总体单位数，所得到的数列称为分配数列，又称次数分配或次数分布。

在分配数列中，分布在各组的总体单位数叫做次数，又称频数。

各组次数与总次数之比称为比率，又称频率。

由此可见，分配数列有两个组成要素：

一个是分组，另一个是次数或频率。

分配数列是统计整理的结果，是进行统计描述和统计分析的重要方法。

它可以表明总体分布特征及内部结构情况，并可据此研究总体单位某一标志的平均水平及其变动的规律性。

分配数列根据分组标志的性质不同，可以分为品质数列与变量数列。

（一）品质数列

它是按品质标志分组形成的，用来观察总体单位中不同属性的单位分布情况的数列。

【案例】

我国2000年第五次人口普查中，人口按民族、性别、籍贯等分组所形成的数列都属于品质数列。

表3-4是人口按性别分组形成的品质数列。

表3-42000年我国人口性别构成情况

人口按性别分组

人口数（万人）

占总人口的比重（%）

男

65355

51.63

女

61228

48.37

合计

126583

100

品质数列的编制比较简单，但要注意在分组时，应包括分组标志的所有表现，不能有遗漏，各种表现要互相独立，不得相融。

（二）变量数列

变量数列是按数量标志分组形成的，用来观察总体中不同变量值在各组的分布情况的数列。

变量分为离散型变量和连续型变量。

对这两类变量，在编制变量数列时，其方法是不相同的：

对于连续型变量一般只能按组距式分组，即以变量值的一定变动范围为一组，编制组距式变量数列（简称组距数列，参见表3-3）；对于离散型变量一般按单项式分组，即将每个变量值作为一组，编制单项式变量数列（简称单项数列，参见表3-5）。

但在实际应用时，如果连续型变量的变量值数目不多，数值变动幅度不大，就可以编制单项式变量数列；如果离散型变量的变量值数目很多，又无法一一列举，就可以编制组距式变量数列。

在组距式变量数列中，需要明确以下各要素：

1.组限。

组距式变量数列中，各组的界限称为组限。

组限分为上限和下限。

下限是每组最小的标志值，上限是每组最大的标志值。

如果各组的组限都齐全，称为闭口组；组限不齐全，即最小组缺下限或最大组缺上限，称为开口组。

（1）划分连续型变量组限时，采用“重叠分组”和“上限不在内”原则，每组变量值都以下限为起点，上限为极限，但不包括上限。

（2）划分离散型变量组限时，相邻组的上下限应当间断，但在实际中为求简便也可采用“重叠分组”，参见表3-6。

此外，当变量出现极大值或极小值时，可采用开口组，即用××以下或××以上表示。

2.组距。

每组下限与上限之间的距离称为组距。

即

组距=上限-下限

组距式变量数列，有等距和不等距两种。

等距变量数列，是指各组的组距都相等。

适用于现象变动比较均匀的情况。

例如收入水平分组、单位面积农产品产量分组等。

不等距变量数列，是指各组的组距不都相等。

适用于现象的变动不均匀或是为研究特定的研究目的编制不等距变量数列。

例如人口的年龄分组常采用不等距分组。

不等距变量数列中，可以用次数密度来反映各组实际次数的分布情况。

即

次数密度=次数组距

3.组中值。

每组下限与上限之间的中点数值称为组中值。

即

组中值=（上限+下限）/2

开口组的组中值计算公式如下：

缺下限组的组中值=（该组上限-邻组组距）/2

缺上限组的组中值=（该组下限+邻组组距）/2

组距式分组掩盖了各组标志值的分布情况，为了反映各组标志值的一般水平，通常用组中值作为各组的代表值。

利用组中值的前提是：

假定各组变量值的分布是均匀的或对称的。

但在实际工作中大多数资料并非如此，因此，组中值作为各组的代表值只是一个近似值。

二、变量数列的编制

（一）单项式变量数列的编制

【案例】

某生产车间50名工人日加工零件数（单位：

个）如下：

117122124129139107117130122125

108131125117122133126122118108

110118123126133134127123118112

112134127123119113120123127135

137114120128124115139128124121

试编制单项式变量数列。

首先，将总体各单位标志值由小到大排列：

107108108110112112113114115117

117117118118118119120120121122

122122122123123123123124124124

125125126126127127127128128129

130131133133134134135137139139

其次，以总体各单位标志值为各组标志值，以总体各单位标志值出现的次数为各组次数，编制单项式变量数列，见表3-5。

表3-5某车间50名工人日加工零件数分组表

零件数（个）

频数（人）

零件数（个）

频数（人）

零件数（个）

频数（人）

107

119

128

108

120

129

110

121

130

112

122

131

113

123

133

114

124

134

115

125

135

117

126

137

118

127

139

通过所给资料我们编制成了单项式变量数列，但却很难看出50名工人日加工零件数的分布特点。

因为该资料中，变量值不但多达27个，而且变量值由107～139变动的范围也比较大，即使能一一列举，也不适宜编制单项式变量数列。

如果编制成组距式变量数列，又会是什么结果呢？

（二）组距式变量数列的编制

【案例】

仍以上题为例，编制组距式变量数列。

编制过程如下：

第一步，计算全距。

将总体各单位标志值由小到大排列，找出最大标志值与最小标志值，二者之差就是全距。

上例中全距=139-107=32（件）。

第二步，确定组数和组距。

在同一变量数列中，组数与组距相互制约，组距大，组数就少；组距小，组数就多。

组数与组距的确定，应力求符合现象的实际情况，充分体现总体分布的特征。

二者谁先被确定，应视具体情况全面考虑。

如果先确定组距，除考虑上述要求外，还要充分考虑原始资料分配的集中程度或集中趋势，以及组内的同质性、组间的差异性。

一般来讲，组数确定为5～7为宜。

上例中，组距为5件，相应的组数为7组。

第三步，确定组限和组中值。

确定组限要考虑以下几点：

1.最小组的下限（起点值）可以略低于最小变量值，最大组的上限（终点值）可以略高于最大变量值；

2.如果组距是5，10，…，100，则每组的下限最好是它的倍数；

3.组限的具体表示方法，应视变量的性质而定。

第四步，计算各组次数和组中值，见表3-6。

表3-6某车间50名工人日加工零件数分组表

按零件数分组（个/人）

频数（人）

频率（%）

组中值（个/人）

105～110

107.5

110～115

112.5

115～120

117.5

120～125

122.5

125～130

127.5

130～135

132.5

135～140

137.5

合计

100

—

从组距式变量数列中可以看到，50名工人日加工零件数主要集中在115～129件，占64%。

在某一变量数列中标志值构成的数列表示标志值的变动幅度，而频数构成的数列则表示相应标志值的作用程度。

频数愈大则相应组的标志值对全体标志水平所起的作用也愈大；反之，则相应组的标志值所起的作用愈小。

因此，在整理和分析的时候，我们不但要注意各组标志值的变动范围，而且，也要注意各组标志值的作用大小，即频数的大小。

将各组单位数和总体单位数相比，既可以表明各组标志值出现的频率的大小，也可以表明各组标志值对总体的相对作用程度。

按顺序列出各组标志值的范围（或以各组组中值来代表）和相应的频率形成的次数分布，又称统计分布。

任何一个分布都必然满足：

各组的频率大于0；各组的频率总和等于1（或100%）。

次数分布是统计描述的一种重要方法，在自然或社会现象中，有许多变量分布是属于正态分布的。

例如，人的体重、身高、单位面积的农产品产量等，这类分布以标志变量的平均值为中心，沿着对称轴向两边发展，愈接近中心，分配的次数愈多，愈远离中心，分配的次数愈少，形成“两头小，中间大”的钟形的分布曲线。

还有一种社会现象的分布和正态分布相反，是沿“两头大，中间小”的形式发展，呈“U”字形。

如人口的死亡率，按年龄分布如下：

0～4岁、特别是未满1岁的婴儿，死亡率最高，从5岁起死亡率逐渐下降，至10～14岁时，达到最低水平，从15岁起又缓慢上升，50岁以后上升显著增快，到60岁以后又达到最高水平。

（三）累计频数和累计频率的计算

在研究次数分布的时候，我们常常还需要编制累计频数数列和累计频率数列。

其方法通常是首先列出各组的组限，然后依次累计到本组为止的各组频数，求得累计频数。

将累计频数除以频数总和即为累计频率。

承上例，累计频数与累计频率计算见表3-7。

表3-7某车间50名工人日加工零件数分组表

按零件数分组（个/人）

频数（人）

频率（%）

向上累计

向下累计

频数（人）

频率（%）

频数（人）

频率（%）

105～110

100

110～115

115～120

120～125

125～130

130～135

135～140

100

合计

100

—

累计频数和累计频率的意义是很明显的。

上表中“向上累计”栏是将各组频数和频率从变量值低的组向变量值高的组累计，故称为向上累计，各组累计数的意义是各组上限以下的累计频数或累计频率。

当我们所关心的是标志值比较低的现象的次数分布情况时，通常采用向上累计，以表明在这些数值以下的所有数值所占的比重。

例如，表3-7中的第一组资料说明在50个工人中，日加工零件数在109件以下的有3人，占总数的6%；第二组资料说明日加工零件数在114件以下的有8人，占总数的16%，等等。

有时为表示在一定标志值以上的累计频数和累计频率，则要从变量值高的组向变量值低的组累计，来求得累计频数和累计频率，称为向下累计，见表3-7“向下累计”栏，各组累计数的意义是各组下限以上的累计频数或累计频率。

当我们所关心的是标志值比较高的现象的次数分布情况时，通常采用向下累计，以表明在这些数值以上的所有数值所占的比重。

例如，表3-7中的第五组资料表示在50个工人中，日加工零件数在125件以上的有20人，占总数的40%，第三组资料表示日加工零件数在115件以上的有42人，占总数的84%，等等。

由此可见，累计频数和累计频率可以更简便地概括总体各单位的分布特征。

【能力训练】

如果要对某地

展开阅读全文

统计学基础第三章 统计整理.docx

统计学基础第三章统计整理.docx