统计知识讲议.docx

资源描述

统计知识讲议.docx

《统计知识讲议.docx》由会员分享，可在线阅读，更多相关《统计知识讲议.docx（31页珍藏版）》请在冰点文库上搜索。

统计知识讲议.docx

统计知识讲议

第十九章统计与统计数据

一、统计含义

统计的三种不同含义：

统计工作：

即统计实践活动，是指利用科学的方法，收集、整理、分析和提供有关社会现象的数字资料工作的总称。

统计工作的基本任务是对国民经济和社会发展状况进行统计调查、统计整理和统计分析，并提供统计资料和咨询，实行统计监督。

统计数据：

是统计工作活动过程所取得的反映国民经济和社会现象的数字资料以及与之相联系的其他资料的总称。

统计资料包括原始的调查资料以及经过加工、整理、分析而成的系统的统计资料，它是统计工作的成果或产品。

统计学：

是关于收集、整理、分析和解释统计数据的科学，是一门认识方法论性质的科学，其目的是探索数据内在的数量规律性，以达到对客观事物的科学认识。

二、统计数据的计量尺度

统计数据是对客观现象进行计量的结果，在收集数据之前，首先要对现象进行计量或测度，这一涉及计量尺度的问题。

不同事物能够予以计量或测试的程度不同，按照计量学的一般分类方法，可将所采用计量尺度由低级到高级，由粗略到精确分为四个层次：

定类尺度、定序尺度、定距尺度和定比尺度。

（一）定类尺度

按照客观现象的某种属性对其进行分类或分组，各类各组之间的关系是并列、平等而且互相排斥的。

是最粗略、最低计量层次的尺度。

（二）定序尺度

是对客观现象各类之间的等级差或顺序差的一种测度。

其计量的结果只能比较大小，不能进行加、减、乘、除等数学运算。

（三）定距尺度

是对现象类别或次序之间间距的测度。

其计量的结果为数值，可以进行加、减运算。

定距尺度使用的计量单位一般为实物单位（自然或物理）或者价值单位。

反映现象规模水平的数据必须是定距尺度计量。

（四）定比尺度

是在定距尺度的基础上，确定相应的比较基数，然后将两种相关的数加以对比的相对数（或平均数），用于反映现象的结构、比重、速度、密度等数量关系。

定比尺度计量的结果可以进行加、减、乘、除等数学运算。

三、统计数据的类型

（一）统计数据的类型

按照计量尺度不同，可以将统计数据分为：

分类数据、顺序数据和数值型数据。

1.分类数据：

由定类尺度计量形成，表现为类别，通常用文字表述，但不区分顺序。

2.顺序数据：

由定序尺度计量形成，表现为类别，通常用文字表述，但有顺序。

3.数值型数据：

由定距尺度和定比尺度计量形成，说明的是现象的数量特征，通常用数值来表现。

也称为定量数据或数量数据。

数据类型的不同，可采用不同的统计方法来处理和分析。

（二）变量及其类型

在统计中，把说明某种现象特征的概念称为变量，变量的具体表现为变量值。

1.分类变量：

一个变量由分类数据来记录就称为分类变量。

2.顺序变量：

一个变量由顺序数据来记录就称为顺序变量。

3.数值型变量：

一个变量由数值型数据来记录就称为数值型变量。

（1）离散变量：

可以取有限个值，而且其取值都以整位数断开，可以一一列举。

（2）连续变量：

可以取无穷多个值，其取值是连续不断的，不能一一列举。

在社会经济问题研究中，当离散变量的取值很多时，也可以将离散变量当作连续变量来处理。

大多数统计方法所处理的变量是数值型变量，因此有时也把数值型变量称为变量。

四、统计指标及其类型

（一）如何理解统计指标

统计指标是十分重要的统计学基本范畴。

通常有两种理解和使用方法：

1.统计指标是用来反映现象总体数量状况的基本概念。

2.统计指标是反映现象总体数量状况的概念和数值。

（二）统计指标的类型

1.按统计指标所反映的内容或其数值表现形式：

总量指标、相对指标和平均指标。

（1）总量指标：

反映现象在一段时期内或某一时刻上的总量。

（2）相对指标：

表现形式通常有比例和比率两种。

（3）平均指标：

又称平均数或均值。

它所反映的是现象在某一空间或时间上的平均数量状况。

2.总量指标按其所反映的时间状况不同：

时期指标和时点指标。

（1）时期指标：

又称时期数，它所反映的是现象在一段时期内的总量。

时期数通常可以累积，从而得到更长时期内的总量。

时点指标：

又称时点数，它所反映的是现象在某一时刻上的总量。

时点数通常不能累积，各时点数累积后没有实际意义。

五、统计数据的来源

从统计数据本身的来源看，统计数据最初都是来源于直接的调查或试验。

从使用者角度来看，统计数据主要来源于两种渠道：

一是来源于直接的调查和科学试验，这是统计数据的直接来源，称之为第一手或直接的统计数据;二是来源于别人调查或试验的数据，这是统计数据的间接来源，称之为第二手或间接的统计数据。

（一）统计数据的直接来源

主要有两个渠道：

一是专门组织的调查，二是科学试验。

在社会、经济和管理问题研究中，统计调查是第一手统计数据的主要来源方式。

常用的统计调查方式主要有普查、抽样调查、统计报表等。

1.普查：

是为某一特定目的而专门组织的一次性全面调查。

普查的特点：

第一、普查通常是一次性的或周期性的;

第二、普查一般需要规定统一的标准调查时间，以避免调查数据的重复或遗漏，保证普查结果的准确性;

第三、普查的数据比一般比较准确，规范化程度也较高，也可为抽样调查或其他调查提供基本依据;

第四、使用范围比较窄，只能调查一些最基本及特定的现象。

2.抽样调查：

是实际中应用最广泛的一种调查方式和方法，它是从调查对象的总体中随机抽取一部分单位作为样本进行调查，并根据样本调查结果来推断总体数量特征的一种非全面调查。

抽样调查的特点：

第一、经济性;

第二、时效性强;

第三、适应面广;

第四、准确性高。

（二）统计数据的间接来源

第二手统计数据的主要来源有公开的出版物、未公开的内部调查等。

利用间接来源的统计数据，必须注意的几个问题：

第一、要评估第二手数据的可用价值；

第二、要注意指标的含义、口径、计算方法是否具有可比性；

第三、注意弥补缺失数据和进行质量检查。

六、统计数据的质量

（一）统计数据的误差、误差的来源

统计数据的误差通常是指统计数据与客观现实之间的差距，误差有登记性误差和代表性误差。

1.登记性误差：

是调查过程中由于调查者或被调查者的人为因素所造成的误差。

（1）调查者登记性误差主要有：

填报错误、抄录错误、汇总错误等;

（2）被调查者登记性误差主要有：

有意虚报或瞒报。

从理论上讲，登记性误差是可以消除的。

2.代表性误差：

主要是指在用样本数据进行推断时的产生的随机误差。

产生的主要原因：

抽取样本时没有遵循随机原则、样本结构与总体结构存在差异、样本容量不足等。

这类误差通常是无法消除的，但事先可以进行控制或计算。

（二）统计数据的质量要求及检查

就一般统计数据而言，可将其质量评价标准概括为六个方面：

1.精度，即最低的抽样误差或随机误差

2.准确性，即最小的非抽样误差或偏差

3.关联性，即满足用户决策、管理和研究的需要

4.及时性，即在最短的时间里取得并公布数据

5.一致性，即保持时间序列的可比性

6.最低成本，即在满足以上标准前提下，以最经济的方式取得数据。

第二十章统计数据的整理与显示

一、品质数据的整理与显示

对品质数据主要是做分类整理。

品质数据是指分类数据与顺序数据。

（一）分类数据的整理与显示

分类数据本身就是对事物的一种分类。

在整理时要列出所分的类别，每一类别的频数、频率或比例、比率，同时选择适当的图形进行显示，便于对数据及其特征有一个初步的了解。

1.频数与频数分布

（1）频数也称次数，是落在各类别中的数据个数。

（2）频数分布表：

我们把各个类别及其相应的频数全部列出来就是频数分布或次数分布。

将频数分布用表格的形式表现出来就是频数分布表。

例如：

为研究北京市贫困家庭的消费状况，北京市统计局在2000年住户抽样调查中，将家庭消费支出分为：

食品、衣着、家庭设备用品及服务、医疗保健、交通通讯、娱乐教育文化、居住、杂项商品及服务。

2000年北京市贫困家庭人均消费水平及消费结构.

消费支出类型

金额（元）

比例

频率（％）

食品

衣着

家庭设备用品及服务

医疗保健

交通通讯

娱乐教育文化

居住

杂项商品及服务

人均消费性支出总计

1759．04

301.93

264.71

158.16

207.55

452.38

267.58

195.53

3607.08

0．4876

0．0837

0．0734

0．0438

0．0575

0．1255

0．0742

0．0542

48.76

8.37

7.34

4.38

5.75

12.55

7.42

5.42

100．00

（1）比例：

是一个总体中各个部分的数量占总体数量的比重，通常用于反映总体的构成或结构。

（2）百分比：

将比例乘以100就是百分比或百分数。

它是将对比的基数抽象化为100而计算出来的，用%表示。

（3）比率：

是种类不同类别的数量的比值。

它可以是一个总体中各不同部分的数量对比。

由于比率不是总体中部分与整体之间的对比关系，因此，比率的比值可能大于1。

1.分类数据的图示

（1）条形图：

用宽度相同的条形的高度或长短来表示数据变动的图形。

既可以横置也可以纵置，纵置时也称为柱形图。

（2）圆形图：

也称饼图。

是用圆形及圆内扇形的面积来表示数值大小的图形。

圆形图主要用于表示总体中各组成部分所占的比例，对于研究结构性问题十分有用。

（二）顺序数据的整理与显示

对于分类数据适用的整理与显示方法都适用于顺序数据。

有些方法适用于顺序数据的整理与显示，但不适用于分类数据。

1.累积频数和累积频率

（1）累积频数：

就是将各类别的频数逐级累加起来。

方法有两种：

一是从类别顺序的一方向类别顺序的最后一方累加频数（数值型数据则是从变量值小的一方向变量值大的一方累加频数），称为向上累积;二是从类别顺序的最后一方向类别顺序的开始一方累加频数（数值型数据则是从变量值大的一方向变量值小的一方累加频数），称为向下累积。

通过累积频数，可以很容易看出某一类别（或数值）以下及某一类型（或数值）以上的频数之和。

（2）累积频率或百分比：

就是将各类别的百分比逐级累加起来，也有向上累积和向下累积两种方法。

例如：

某国有企业有530名工人，他们的工资水平可以从低到高分为一级到八级，将他们的工资状况整理所示。

二、数值型数据的整理与显示

品质数据的整理与图示方法都适用于数值型数据的整理与显示。

但数值型数据还有一些特定的整理和图示方法，并不适用于品质数据。

（一）数据的分组

数据分组就是根据统计研究的需要，将数据按照某种标准划分成不同的组别。

分组后再计算出各组中出现的次数和频数，形成一张频数分布表。

分组的方法有单变量值分组和组距分组两种。

单变量值分组是把每一个变量值作为一组，这种分组方法通常只适用于离散变量且变量值较少的情况。

在连续变量或变量值较多的情况下，通常采用组距分组。

组距分组是将全部变量值依次划分为若干区间，并将这一区间的变量值作为一组。

下面用具体的例子说明分组的过程和频数分布表的编制过程。

某高中一年级一共有55名学生，高一语文考试中成绩分别为：

59738765898577946997

56806895965063889190

96929379746574898351

74799467929293708786

54878654627686738670

100110108102112

第一步：

确定分组组数。

确定分组组数的要求是：

第一、划分的组数，既不应太多也不应太少。

组数过多，达不到通过分组压缩资料的目的;组数太少，将造成原始资料的信息丢失过多;第二、组数的确定，要尽量保证组间资料的差异性与组内资料的同质性;第三、采用的分组办法，要能够充分显示客观现象本身存在的状态。

关于统计分组问题比较有代表性的是斯特基方法。

计算公式为：

K为分组组数，N为数据个数。

本例中

，所以分为7组

第二步，对原始资料进行排序（略）。

第三步，求极差，即将最大的观察值与最小的观察值相减便得到极差。

本例中为112-50=62

第四步，确定各组组距。

组距=极差（全距）/组数

本例中组距=62/7≈8.9，组距可取10。

组距与组数成反比关系，组数越多，组距越小，组数越少，组距越大。

组距=某组的上限值-该组的下限值

第五步，确定组限。

确定组限应注意：

第一、第一组的下限值应比最小的观察值小一点，最后一组的上限值应比最大的观察值大一点;

第二、特别需要或不得已的情况除外，最好不要使用开口组;

第三、组限应取得美观些，按数字编好，组限值应能被5除尽，且一般要用整数表示。

第六步，确定各组观察值出现的频数。

采用组距分组时，需要遵循“不重不漏”的原则。

为解决“不重”的问题，统计分组时习惯上规定“上组限不在内”，即当相邻两组的上下限重叠时，恰好等于某一组上限的观察值不算在本组内，而计算在下一组内。

第七步，制作频数分布表，并填上相关的内容，以及其他需要说明的事。

（二）数值数据的图示

显示分组数据频数分布特征的图形有直方图、折线图、条形图、圆形图等。

三、统计表

统计表和统计图是显示统计数据的两种基本方式，是做好统计分析必须掌握的最基本技能。

（一）统计表的构成

统计表一般由表头、行标题、列标题和数字资料四个主要部分组成，必要时可以在统计表的下方加上表外附加，表外附加通常放在统计表的下方，主要包括资料来源、指标的注释和必要的说明等内容。

（二）统计表的设计

总体上看，统计表的设计应符合科学、实用、简练、美观的要求。

设计统计表时要注意以下几点：

第一、要合理安排统计表的结构

第二、表头应该包括表号、总标题和表中数据的单位等内容；

第三、表中的上下两条横线一般用粗线，中间的其他线条用细线；

第四、在使用统计表时，可在表的下方加上注释，特别要注明资料来源，以表示对他人劳动成果的尊重，方便读者查阅。

第二十一章统计数据特征的测度

对统计数据特征的测度主要从三个方面进行：

一是分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度，反映各数据远离其中心值的趋势;三是分布的偏态和峰度，反映数据分布的形状。

一、集中趋势的测度

集中趋势是指一组数据向某一中心值靠拢的倾向，测度集中趋势也就是寻找数据一般水平的代表值或中心值。

集中趋势的测度，主要包括位置平均数和数值平均数。

位置平均数是指按数据的大小顺序或出现频数的多少确定的集中趋势的代表值，主要有众数、中位数等;数值平均数是指根据全部数据计算出来的平均数，主要有算术平均数、几何平均数等。

（一）众数

众数是一组数据中出现频数最多的那个数值，用M0表示。

例如，一家连锁店超市的10个分店某月的销售额（单位：

万元）分别为：

61657378808080809697

这10个分店月销售额的众数为M0=80万元

用众数反映集中趋势，非常直观，不仅适用于品质数据，也适用于数值型数据。

众数是一个位置代表值，不受极端值的影响，抗干扰性强。

（二）中位数

把一组数据按从小到大的顺序进行排列，位置居中的数值叫做中位数，用Me表示。

未分组数据计算中位数时，要先对数据进行排序，然后确定中位数的位置，其公式为：

中位数位置=（n+1）/2，式中n为数据的个数。

最后确定中位数的具体数值。

当n为奇数时，中间位置上的数就是该数列的中位数;

当n为偶数时，是中间位置上两个数的平均数。

例如，某地级市下辖9个县，每个县的面积如下（单位：

平方公里），计算该市下辖县面积的中位数：

14552019912101613521031212810752000

首先，将上面的数据排序，结果如下：

91210161031107513521455200020192128

中位数位置=（9+1）/2=5，中位数为1352，即Me=1352（平方公里）

如上题中，行政区划调整后，该市现在下辖10个县，该市下辖县的面积（单位：

平方公里）从小到大依次为：

912100010161031107513521455200020192128

则中位数=（10+1）/2=5.5，Me=（1075+1352）/2=1213.5（平方公里）

中位数主要用于顺序数据，也适用于数值型数据，但不适用于分类数据。

中位数也是一个位置代表值，不受极端值的影响，抗干扰性强。

（三）算术平均数

算术平均数是全部数据的算术平均，又称均值，用

表示。

算术平均数是集中趋势最主要的测度值，在统计学中具有重要的地位，是进行统计分析和统计推断的基础。

它主要适用于数值型数据，但不适用于品质数据。

1.简单算术平均数：

2.加权算术平均数

例如，某市商业企业协会根据100个会员样本，整理出一年销售额分布资料如下：

销售额（万元）

组中值Xi

商业企业数fi

Xi*fi

100－150

150－200

200－250

250－300

300－350

350－400

125

175

225

275

325

375

500

2800

9000

7700

3250

750

合计

—

100

24000

计算年平均销售额。

结果表明：

100个商业企业的年均销售额为240万元。

计算和运用算术平均数须注意：

第一，算术平均数受到两个因素的影响，一个是各组数值的大小，另一个是各组分布频数的多少;

算术平均数易受极端值的影响。

（四）几何平均数

n个观察值连乘积的n次方根就是几何平均数。

根据资料的条件不同，几何平均数也有加权和不加权之分。

设一组数据为X1,X2,X3,…,Xn，且大于0，

表示几何平均数，则：

例如，某型号钻头的生产，需经过6道不同的加工工序，各道工序的合格率如下表所示，计算平均合格率。

各道加工工序合格率

工序名称

合格率（％）

冲料

料废

车工

加热

扫槽

接柄

98.2

97.5

97.0

96.6

95.5

95.0

即各道工序的平均合格率为96.63%。

计算几何平均数要求各观察值之间存在连乘积关系，它的主要用途是：

（1）对比率、指数等进行平均;

（2）计算平均发展速度。

二、离散趋势的测度

离散程度是指数据之间的差异程度或频数分布的分散程度。

离散程度与集中趋势是两个同样重要的数据分布特征。

集中趋势的测试值是对数据一般水平的一个概括性变量，它对一组数据的代表程度，取决于该组数据的离散水平。

数据的离散程度越大，集中趋势的测度值对该组数据的就越差，离散程度越小，其代表性就越好。

离散程度的测度，主要包括极差、方差和标准差、离散系数等。

（一）极差

最简单的变异指标。

就是总体或分布中的最大标志值与最小标志值之差，又称全距，用R表示。

极差反映的变量分布的变异范围或离散幅度，在总体中任何两个单位的标志值之差都不可能超过极差。

极差计算简单，含义直观，运用方便。

但它仅仅取决于两个极端值的水平，不能反映其间的变量分布情况，同时易受极端值的影响。

（二）标准差和方差

标准差是总体所有单位标志值与其平均数离差之平方的平均数的平方根，用表示。

标准差的计算公式：

（用于未整理的原始数据）

或

（用于分组数据）

方差就是标准差的平方，用

来表示。

方差的计算公式为：

（用于未整理的原始数据）

或

（用于分组数据）

标准差与方差计算比较简便，又具有比较好的数学性质，是应用最广泛的统计离散程度的测度方法。

（三）离散系数

离散系数的作用是消除变量值水平高低和计量单位不同对离散程度测度值的影响，是一相对指标。

离散系数通常是就标准差来计算的，因此也称标准差异系数。

它是一组数据的标准差与其相应的算术平均数之比，是测度数据离散程度的相对指标，用

表示，其计算公式为：

离散系数主要是用于比较对不同组别数据的离散程度。

离散系数大的说明数据的离散程度也就大，离散系数小的说明数据的离散程度也越小。

第二十二章时间序列

一、时间序列及其分类

统计对事物进行动态研究的基本方法是编制时间序列。

1.时间序列

也称动态数列，是将某一统计指标在各个不同时间上的数值按时间先后顺序编制形成的序列。

下表列举了我国1991～1997年期间若干经济指标的时间序列。

我国1991～1997年若干国民经济指标资料

1991

1992

1993

1994

1995

1996

1997

国内生产总值（亿元）

年底总人口数（万人）

人均国内生产总值（元/人）

城镇人口比重（％）

21618

115823

1879

26.37

26638

117171

2287

27.63

34634

118517

2939

28.14

46759

119850

3923

28.62

58478

121121

4854

29.04

67885

122389

5576

29.37

74772

123626

6079

29.92

从表中看出，时间序列由两个基本因素构成：

一是被研究现象所属时间;另一是反映该现象一定时间条件下数量特征的指标值。

同一时间序列中，各指标值的时间单位一般要求相等，这样在分析研究中无须考虑时间单位不同所造成的差异。

时间序列中所排列指标值是具有某种性质特征的指标的具体数量表现，是划分时间序列类型的依据。

2.时间序列类型

（1）绝对数时间序列：

是由绝对数指标值按时间先后顺序排列后形成的序列。

依据指标值的时间特点，绝对数时间序列又分为时期序列和时点序列。

时期序列中，每一指标值反映现象在一定时期内发展的结果，即“过程总量”。

时点序列中，每一指标值反映现象在一定时点上的瞬间水平。

（2）相对数、平均数时间序列

由同类相对数或平均数指标值按时间先后顺序排列后形成的序列。

二、时间序列的水平分析

（一）发展水平

发展水平是时间序列中对应于具体时间的指标数值。

也就是说，在绝对数时间序列中，发展水平就是绝对数;在相对数和平均数时间序列中，发展水平表现为相对数或平均数。

设时间序列以y0,y1,y2,…,yn表示，序列中第一项指标值y0称为最初水平，最末项的指标值yn称为最末水平，处于二者之间的各期指标值（y1,y2,…,yn-1）则称为中间水平。

根据各期指标值在计算动态分析指标时的作用，又可分为基期水平和报告期水平。

基期水平是作为对比的基础时期的水平，报告期水平则是所要反映与研究的那一时期的水平。

（二）平均发展水平

平均发展水平也称序时平均数或动态平均数，是对时间序列中各时期发展水平计算的平均数，它可以概括性描述现象在一段时间内所达到的一般水平。

时间序列类型不同，计算方法也不同。

1.绝对数时间序列序时平均数的计算

（1）由时期序列计算序时平均数，计算公式为

（2）由时点序列计算序时平均数

A.连续时点序列序时平均数的计算公式为：

a.资料逐日登记的情况：

b.资料仍按天登记，但只在指标值发生变动时才记录的情况：

B.间断时点序列序时平均数的计算公式为：

a.间隔相等时点序列序时平均数的计算

展开阅读全文