样本与总体.docx

上传人:b****8 文档编号:8947612 上传时间:2023-05-16 格式:DOCX 页数:20 大小:44.10KB
下载 相关 举报
样本与总体.docx_第1页
第1页 / 共20页
样本与总体.docx_第2页
第2页 / 共20页
样本与总体.docx_第3页
第3页 / 共20页
样本与总体.docx_第4页
第4页 / 共20页
样本与总体.docx_第5页
第5页 / 共20页
样本与总体.docx_第6页
第6页 / 共20页
样本与总体.docx_第7页
第7页 / 共20页
样本与总体.docx_第8页
第8页 / 共20页
样本与总体.docx_第9页
第9页 / 共20页
样本与总体.docx_第10页
第10页 / 共20页
样本与总体.docx_第11页
第11页 / 共20页
样本与总体.docx_第12页
第12页 / 共20页
样本与总体.docx_第13页
第13页 / 共20页
样本与总体.docx_第14页
第14页 / 共20页
样本与总体.docx_第15页
第15页 / 共20页
样本与总体.docx_第16页
第16页 / 共20页
样本与总体.docx_第17页
第17页 / 共20页
样本与总体.docx_第18页
第18页 / 共20页
样本与总体.docx_第19页
第19页 / 共20页
样本与总体.docx_第20页
第20页 / 共20页
亲,该文档总共20页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

样本与总体.docx

《样本与总体.docx》由会员分享,可在线阅读,更多相关《样本与总体.docx(20页珍藏版)》请在冰点文库上搜索。

样本与总体.docx

样本与总体

第三十章样本与总体

一、抽样调查的意义

1、人口普查和抽样调查

你能回答下列问题吗?

(1)你们班级每个学生的家庭各有多少人?

平均每个家庭有多少人?

(2)2000年,你所在的省、自治区或直辖市平均每个家庭有多少人?

(3)今年,全国平均每个家庭有多少人?

第1个问题容易回答,我们只要调查全班每一个学生将结果填入下表,就可计算得到所要的结果。

姓名

人口总数

平均数

家庭人口数

或者完成下表,也可计算得到问题的答案。

家庭人口数

1

2

3

4

5

6

人口总数

平均数

家庭数目

像这样的全面调查叫做普查。

第2个问题稍难一些,因为要调查的家庭数太多了,不过,利用2000年第五次全国人口普查数据,我们还是能够回答的。

在国家统计局中国统计信息网上,能够查到全国和各地发布的人口普查数据公报。

就全国范围来说,“祖国大陆31个省、自治区、直辖市共有家庭户34837万户,家庭户人口为119839万人,平均每个家庭户的人口为3.44人。

第3个问题最难回答,因为全国人口普查的工作量极大,我国今后每十年进行一次全国人口普查,每五年进行一次全国1%人口的抽样调查。

所谓全国1%人口的抽样调查是指从全国近13亿的总人口中抽取1%,即约1300万人口,然后答对这部分人进行的调查。

2005年的抽样调查数据显示,全国共有家庭户39519万户,家庭户人口为123694万人,平均每个家庭户的人口为3.13人。

我们没有今年的现成数据,只能在2000年与2005年数据的基础上,再结合近几年来我过家庭户人口数的变化情况,估计一个答案了。

我们把所要考察的对象的全体叫做总体,把组成总体的每一个考察对象叫做个体。

从总体中取出的一部分个体叫做这个总体的一个样本。

一个样本包含的个体的数量叫做这个样本的容量。

例如人口普查中,当考察我国人口年龄构成时,总体就是所有具有中华人民共和国国籍并在中华人民共和国境内常住的人口的年龄,个体就是符合这一条件的每一个公民的年龄,符合这一条件的所有北京市的公民的年龄就是一个样本。

普查是通过调查总体的方式来收集数据的,抽样调查是通过调查样本的方式来收集数据的。

练习:

下列调查中哪些是用普查方式,哪些是用抽样调查方式来收集数据的?

(1)为了解你所在班级的每个学生穿几号的鞋,向全班同学作调查。

(2)为了解你们学校九年级学生穿几号的鞋,向你所在班的全体同学作调查。

(3)为了解你所在班的同学们每天的睡眠时间,在班上每个小组中各选取2名学生作调查。

(4))为了解你所在班的同学们每天的睡眠时间,选取班级中学号为双数的所有学生作调查。

2、从部分看全体

做一做:

在没有度量工具的情况下,人们经常借助自己的步长、庹(tuo)(两臂左右伸直的长度)等来估计长度或距离。

为了了解九年级学生一般的步长,请调查你所在班级中每一位同学的步长,然后计算同学们的平均步长。

(精确到1厘米)

由于人力、物力、时间等等因素的限制,我们常常无法调查总体中的每一个对象,于是转而采取调查样本的方法来了解总体。

一个鱼缸里有多少条鱼,容易数出来。

可是,怎样知道一个池塘里有多少条鱼呢?

一个办法是将池塘里的鱼统统捞出来,逐条清点,但是这样做不太现实,那么能否找到其他办法呢?

让我们先用乒乓球代替鱼来尝试着解决这个问题。

试一试:

这里有一个大布袋,里面装着许多乒乓球。

如果无法把所有的乒乓球都倒出来数,那么你们还有其他办法估计布袋中共有多少个乒乓球吗?

有一个可行的办法就是利用抽样调查的方法。

先从布袋中取出一部分球,例如取10个球,在每个球上做个记号,以示它们已经被取出过。

将这10个球全部放回布袋中,再将布袋中的球搅匀,然后第二次从布袋中取出一部分球,例如取15个,检查这15个球中有几个是曾经被取出做过标记的,假如说检查发现当中有2个是做过标记的,那么根据下列的近似关系:

,就可以估计出布袋中球的数目

显然,如果重复这个实验,那么每次实验中“第二次取出的球中有标记的数目”是可能变化的,于是,根据这个近似的比例关系每次估计出的布袋里球的数目也会跟着变化。

为了得到一个比较可靠的估计,我们最好多重复几次这个实验,综合地加以考虑。

也有同学想到用一个乒乓球所占的体积来估计这样一个口袋大约能装多少个乒乓球,这也是一个好办法。

现在让我们回到估计池塘里面鱼的数目这个问题,想一想,怎么来估计池塘里面鱼的数目呢?

模仿刚才用抽样调查估计乒乓球数目的方法,在下面的空白部分给出你的方法:

 

假设你第一次捕捞一网,一共捕到20条鱼,它们全被做上了标记,第二次捕捞了三网,一共捕到54条鱼,其中的3条鱼身上有标记,那么池塘里鱼的数目≈(条)。

类似这样从部分看全体的抽样调查方法也可以用来估计一户家庭一年要丢弃多少个塑料袋,估计一片森林里有多少只野鹿,估计一片试验田里某种水稻的产量,估计某种商品的销量等等,非常有用。

因为抽样调查方法只考察总体中的一部分样本,所以它具有调查的范围小、节省时间和人力物力的优点。

它的缺点是不如普查得到的调查结果精确,它得到的只是估计值,而且这个估计值是否接近实际情况还取决于样本的大小以及它的代表性因素等等。

3、这样选择样本合适吗

思考:

《中国中学生报》在网上就“你对老师讲课时‘拖堂’现象的态度”进行了调查,2001年11月19日网上显示的调查结果如下图所示。

请问:

为什么编辑声明“网上调查结果不具普遍代表性,仅供参考”?

例1、老师布置给每个小组一个任务,用抽样调查的方法估计全班同学的平均身高。

坐在教室最后面的小胖为了争速度,立即就近向他周围的3个同学作调查,计算出他们4个人的平均身高后就举手向老师示意自己已经完成任务了。

例2、甲同学说:

“6,6,6,6…啊!

真的是6!

你只要一直想着某个数,就会掷出这个数。

乙同学说:

“不对,我发现我越是想要某个数就越得不到这个数,倒是不想它反而会掷出那个数。

 

例3、小强的自行车失窃了,他想知道所在地区每个家庭平均发生过几次自行车失窃事件。

为此,他和同学们一起,调查了全校每个同学所在家庭发发生过几次自行车失窃事件。

 

练习:

判断下面这几个抽样调查选取样本的方法是否合适,并说明理由。

(1)一手表厂欲了解6~11岁少年儿童戴手表的比例,周末来到一家业余艺术学校调查200名在那里学习的学生;

(2)为调查一个省的环境污染情况,调查省会城市的污染情况。

读一读:

据国家环保总局信息中心的“中国环境保护网”报道,2002年4月我国47个城市的平均污染指数排序如下:

城市

平均污染指数

平均空气质量状况

城市

平均污染指数

平均空气质量状况

城市

平均污染指数

平均空气质量状况

兰州

173

轻度污染

天津

134

轻微污染

呼和浩特

119

轻微污染

北京

168

轻度污染

太原

132

轻微污染

连云港

118

轻微污染

沈阳

160

轻度污染

石家庄

120

轻微污染

大连

117

轻微污染

西安

143

轻微污染

西宁

119

轻微污染

青岛

115

轻微污染

重庆

112

轻微污染

乌鲁木齐

90

广州

59

秦皇岛

111

轻微污染

成都

87

昆明

56

哈尔滨

111

轻微污染

武汉

86

厦门

55

银川

107

轻微污染

合肥

85

湛江

54

南京

106

轻微污染

长沙

84

南宁

51

郑州

104

轻微污染

烟台

82

深圳

45

长春

101

轻微污染

南昌

79

桂林

45

苏州

98

温州

70

汕头

41

南通

97

拉萨

69

北海

39

上海

97

贵阳

65

珠海

36

杭州

95

宁波

63

海口

30

济南

93

福州

60

做一做:

请查询上述网站,完成下列研究任务:

(1)你认为我国城市污染最严重的情况是“轻度污染”吗?

兰州、北京和沈阳是我国污染最严重的城市吗?

(2)选择几个你们共同关心的城市,了解它们在最近几个月中平均污染指数的排序情况,如果某些城市的排名有明显升降,请设法寻找原因,如当月的降水量、周边地区的污染情况等。

在该网站“各地环保”栏目下可以链接各省市的环保网站。

(3)我国大陆4个直辖市和27个省会城市都已经包括在这47个城市中了,另外还加入了16个城市,请在中国地图上标出这些城市,你们认为该网站主页上每天公布的47个城市空气质量级别比例图能反映当日全国各地城市空气质量级别的比例吗?

47个城市的空气质量级别比例图(2002-05-12)

习题1、

1、下列调查中哪些是用普查的方式,哪些是用抽样调查的方式来收集数据的?

(1)为了了解你所在班级的每个学生周末(星期五、星期六)晚上的睡眠时间,向全班同学作调查;

(2)为了对世界上一些国家的教育成就做横向比较,国际教育成就评价协会于1999年再次对38个国家或地区的部分8年级学生的数学和科学两个科目作了测试调查;

(3)为了了解某商品促销广告中所称中奖率的真实性,某人买了100件该商品调查其中奖率。

2、请指出下列抽样调查的总体和样本分别是什么?

(1)为了了解某种家用空调工作1小时的用电量,调查10台该种空调每台工作1小时的用电量;

(2)为了了解一本300页的书稿大约共有多少字数,从中随机地选定一页作调查,数一数该页的字数。

3、请指出下列哪些调查不适合做普查而适合作抽样调查:

(1)了解夏季冷饮市场上冰激凌的质量情况;

(2)审查书稿有哪些科学性错误;

(3)研究父母与孩子交流的时间量与孩子性格之间是否有联系;

(4)了解一个打字训练班学员的训练成绩是否都达到了预定训练目标。

4、请指出下列哪些调查的样本缺乏代表性:

(1)在大学生中调查我国青年业余时间娱乐的主要方式;

(2)在公园里调查老年人的健康状况;

(3)调查一个班级里学号为3的倍数的学生,以了解学生们对班主任老师某一新举措的意见和建议;

(4)某环保网站正在对“支持商店使用环保购物袋的程度”进行在线调查。

5、一天,家里来了一位陌生的客人,平时活泼好动的小丽在客人面前却表现的特别安静。

小丽这一天的表现有代表性吗?

如果这位客人以小丽这天的表现来估计小丽的性格的话,是否合理?

6、一般来说,要了解一个城市的空气污染情况,观察一个月得到的结论可靠,还是春夏秋冬各观察一个月得到的结论可靠?

为什么?

二、用样本估计总体

妈妈为了知道饼熟了没有,从刚出锅的饼上切下一小块尝尝,如果这一小块饼熟了,那么可以估计整张饼也熟了。

环境监测中心为了了解一个城市的空气质量情况,会在这个城市中分散地选点几个点,从各地点采集数据,对这些数据进行分析,就可以估计整个城市的空气质量。

农科站为了解农田中某种病虫害的灾情,会随意地选定几块地,仔细检查虫卵数,然后估计一公顷农田大约平均有多少虫卵,会不会发生大规模的病虫害。

以上几个例子都不适宜做普查,而需要做抽样调查。

我们知道,样本最好有代表性,没有偏向,这样的抽样调查可以较好地反映总体的情况。

那么如何进行抽样才比较科学呢?

1、简单的随机抽样

要使样本具有代表性,不偏向总体中的某些个体,有一个对每个个体都公平的办法,那就是用抽签的办法觉得哪些个体进入样本。

统计学家们称这种理想的抽样方法为简单的随机抽样。

具体来说,先将每个个体编号,然后将写有这些编号的纸条或者乒乓球全部放入一个盒子,搅拌均匀。

再用抽签的办法,抽出一个编号,那个编号的个体就被选入样本。

当然,为了节省时间,也可以像以前那做过的那样,让计算器来产生随机数。

现实中,我们一般不会对同一个人调查两次,所以,如果计算器产生的随机数有重复,那么就只算一次。

现在我们就用简单的随机抽样方法来选取一些样本,假设总体是某年纪300名学生的考试成绩,它们已经按照学号顺序排列如下(每行有20个数据):

97,92,89,86,93,72,74,72,60,9870,90,89,90,71,80,69,92,70,64

92,83,89,93,72,77,79,75,80,9393,72,87,76,86,82,85,82,87,86

81,88,74,87,92,88,75,92,89,8288,86,85,76,79,92,89,84,93,75

93,84,87,90,88,90,80,89,82,7873,79,85,78,77,91,92,82,77,86

90,78,86,90,83,73,75,67,76,5570,76,77,91,70,84,87,62,91,67

88,78,82,77,87,75,84,70,80,6680,87,60,78,76,89,81,88,73,75

95,68,80,70,78,71,80,65,82,8362,72,80,70,83,68,74,67,67,80

90,70,82,85,96,70,73,86,87,8170,69,76,68,70,68,71,79,71,87

60,64,62,81,69,63,66,63,64,5361,41,58,60,84,62,63,76,82,76

61,72,66,80,90,93,87,60,82,8577,84,78,65,62,75,64,70,68,66

99,81,65,98,87,100,64,68,82,7366,72,96,78,74,52,92,83,85,60

67,94,88,86,89,94,99,100,79,8568,60,74,70,78,65,68,68,79,77

90,55,80,77,67,65,87,81,67,7557,75,90,86,66,83,68,84,68,85

74,98,89,67,79,77,69,89,68,5558,63,77,78,69,67,80,82,83,98

94,96,80,79,68,70,57,74,96,7078,80,87,85,93,80,88,67,70,93

活动1、用简单的随机抽样方法选取三个样本,每个样本含有5个个体,这里已经完成了第一个样本的选取,请继续完成第二个和第三个样本的选取。

第一个样本:

随机数(学号)

111

254

167

94

276

成绩

80

86

66

91

67

第二个样本:

随机数(学号)

成绩

第三个样本:

随机数(学号)

成绩

从以上的抽样过程可以看到,抽样之前,我们不能预测到哪些个体会被抽中,像这样不能够事先预测结果的特性叫做随机性。

2、抽样调查可靠吗

让我们仍以这300名学生的考试成绩为例,考察一下抽样调查的结果是否与总体的情况相一致。

首先对总体情况进行分析,根据已知数据,按照10分的距离将成绩分段,统计每个分数段学生出现的频数,填入下表。

300名学生考试成绩频数分布表

成绩段

39.5~49.5

49.5~59.5

59.5~69.5

69.5~79.5

79.5~89.5

89.5~100

频数

1

9

62

85

96

47

根据上表绘制直方图,如下图:

从图表中可以清楚地看出79.5分到89.5分这个分数段的学生数最多,90分以上的同学较少,不及格的学生数最少。

利用原始数据可以算出总体的平均成绩和标准差分别为78.1分和10.8分。

活动1中,我们用简单的随机抽样方法,已经得到了第一个样本,这5个随机数是111,254,167,94,276,这5个学号对应的成绩依次是80,86,66,91,67,下图是这个样本的频数分布直方图、平均数和标准差。

 

重复上述步骤,再取第二和第三个样本。

下图是根据小明取到的第二和第三个样本数据得到的频数分布直方图。

 

再选取一些含有5名学生的样本,继续作条鱼的分析,我们发现,不同样本的平均成绩和标准差往往差异较大。

可能是因为样本太小了吧,让我们再用大一些的样本试一试,这次每个样本含有10个个体。

我们继续用简单的随机抽样方法,得到第一个样本。

重复上述步骤,再取第二个样本。

下图是根据小明取到的样本数据得到的频数分布直方图。

 

再选取一些含有10名学生的样本,我们发现此时不同样本的平均成绩和标准差似乎比较接近总体的平均成绩78.1分和标准差10.8分。

看来用大一些的样本来估计总体会比较可靠一点,让我们再用更大一些的样本来试一试,这次每个样本含有40个个体。

下图是估计小明渠道的两个样本数据得到的频数分布直方图。

 

再选取一些含有40名学生的样本,我们发现样本的平均成绩和标准差与总体的平均成绩和标准差的差距更小了!

你们从自己的抽样过程中是否也得出了同样的结果?

当我们用更简单的随机抽样方法抽取5名学生时,各个样本的平均数、标准差往往差距较大,但是,当我们用同样的方法抽取40名学生时,往往样本的平均成绩都相当接近总体的平均成绩78.1分。

3、用样本估计总体

例、2002年北京的空气质量情况如何?

请用简单随机抽样方法选取该年的30天,纪录并统计这30天北京的空气污染指数,求出这30天的平均空气污染指数,据此估计北京2002年全年的平均空气污染指数和空气质量状况。

解:

用简单的随机抽样方法选定了下表中这30天,查中国缓解保护网得知北京在这30天的空气污染指数及质量级别如表所示。

这30个空气污染指数的平均数为107,据此估计该城市2002年的平均空气污染指数为107,空气质量状况属于轻微污染。

让我们将北京这30天不同空气质量级别所占天数及比例与其2002年全年的相应数据作一比较,体会用样本估计总体方法的合理性。

下图是上面随机选取的30天的情况。

 

下图是2002年全年365天的总体情况。

 

经过比较可以发现,虽然从样本获得的数据与总体的不完全一致,但这样的误差还是可以接受的,是一个较好的估计。

说明:

若用简单的随机抽样方法再选取30天,则可能会得出该城市2002年平均空气污染指数的另一个估计值。

所以,基于不同的样本,可能会对总体给出不同的估计值。

但是,正如我们前面看到的,随着样本容量的增加,由样本得出的平均数往往会更接近总体的平均数,数学家已经证明随机抽样方法是科学而可靠的。

对于估计总体特性这类问题,数学上的一般做法是给出具有一定可靠程度的一个估计值的范围,将来同学们会学习到有关的数学知识。

活动2、人们常说“吸烟有害”,这一般是指吸烟有害于人类的健康,那么,香烟对其他动植物的生长是否也不利呢?

上海市闵行中学的师生们做过一个“香烟浸出液浓度对于种子萌芽的影响”的实验,他们选用常见的绿豆及赤豆各50粒作为种子的代表,观察在三种不同浓度的香烟浸出液中它们每天出芽的数目。

他们获得的实验数据如下表所示。

据此,那么估计香烟浸出液浓度对绿豆及赤豆的出芽率有什么影响?

如果再重复这个实验,实验数据是否可能与它们获得的不一致?

为了一般地研究“香烟浸出液浓度对于种子萌芽的影响”,是否需要选取一些其他的种子来做类似的实验?

如果有兴趣,请动手做一做,再与同学们一起讨论你们各自获得的数据和结论。

活动3、假设你们学校在千里之外还有一个友好姐妹学校,那个学校九年级学生想知道你们学校九年级男、女学生的平均身高和体重。

请提出若干个了解你们年纪男、女学生平均身高和体重情况的方案,并按照解决问题的不同方法,分成几个组,分别尝试一下你们的办法。

比一比,评一评,看哪种方法好。

(如节省时间、结果误差小等等)

为了评比出最好的方案,请利用休息时间,让九年级全体学生测量一下身高和体重,然后把数据填入本书最后的表呢,并计算出结果。

思考:

一个年纪有几百个学生,可是计算器一次只能计算几十个数据的平均数,怎么办?

习题2、

1、判断下面这几个抽样调查选取样本的方法是否合适,并说明理由:

(1)一食品厂为了解某产品的质量情况,在生产流水线上每隔100包选取一包检查其质量;

(2)为调查全校学生对购买正版书籍、唱片和软件的支持率,用简单的随机抽样方法在全校所有的班级中抽取8个班级,调查者8个班级所有学生对购买正版书籍、唱片和软件的支持率。

2、2003年这个科学院新增院士年龄统计(单位:

岁)

70,55,45,62,71,56,6066,64,61,69,48,75,60,43

50,43,49,63,69,57,5563,37,51,57,65,70,52,63

43,65,50,61,47,62,6266,56,55,63,37,58,64,72

63,49,66,64,64,60,5667,64,60,58,67,66

请根据以上数据绘制响应的频数分布表和频数分布直方图。

3、某班45名学生的体重纪录如下(单位:

千克):

48,48,42,50,61,44,43,51,46,46,51,46,50,45,52,54,51,57,55,48,

49,48,53,48,56,55,57,42,54,49,47,60,51,51,44,41,49,53,52,49,

61,58,52,54,50。

请用简单的随机抽样方法,分别选取含有6名学生体重的两个样本、含有15名学生体重的两个样本以及含有30名学生体重的两个样本,分别计算这六个样本里学生体重的平均数和标准差,最后用全班学生体重的平均数和标准差与它们作比较,你认为数据抽样方法可靠吗?

样本较大时,样本的估计值是否与总体更接近?

4、假如你想通过抽样调查了解有多少初中生能够说出父母亲的生日,你认为如何抽样好?

为什么?

三、借助调查做决策

1、借助调查做决策

例1、2001年“五一”前夕,小明一家准备购买一台彩电。

是买国产的还是买进口的?

是考虑价格便宜还是追求功能全面?

最后决定在甲、乙、丙三个国产品牌中选择一个最畅销的品牌。

小明上网查得截至2001年第一季度的最新数据,如下表所示。

1999年

630

591

503

2000年

694

550

586

2001年第一季度

105

118

175

如果你是小明,会怎样取舍呢?

分析:

下面两图分别是这三个品牌彩电自1999年以来截至2001年第一季度的销售总量和月平均销售量的比较图。

从销售总量排行榜来看,甲应该是首选品牌;从月平均销售量来看,丙呈逐年大幅上升趋势,令两个品牌的销售量却似呈下降趋势,从发展的眼光看,丙很可能是近期和以后最畅销的。

思考:

(1)以2001年第一季度三个品牌销售量的4倍分别作为2001年它们全年的估计销售量,这样比较年销售量合适吗?

(2)为了进一步了解这三个品牌的销售情况,小明与他的爸爸特地在一家电器商场观察了一个小时,在这一小时中,他们发现甲与丙各卖出了两台,而乙一台也没有卖出去。

为什么他们在商场观察的结果与小明在媒体上查到的数据不成比例?

这是否意味着网上公布的数据不可靠?

为什么?

练习:

爸爸妈妈计划在周末带小明去旅游。

首先,希望天气适宜;其次,游览的地方最好离居住地近一些。

下图是小明在报纸上查询到的

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 管理学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2