高中数学必修3第二章统计 总结.docx
《高中数学必修3第二章统计 总结.docx》由会员分享,可在线阅读,更多相关《高中数学必修3第二章统计 总结.docx(27页珍藏版)》请在冰点文库上搜索。
高中数学必修3第二章统计总结
第二章统计
一、随机抽样
三种常用抽样方法:
1.简单随机抽样:
设一个总体的个数为N。
如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。
实现简单随机抽样,常用抽签法和随机数表法。
(1)抽签法
制签:
先将总体中的所有个体编号(号码可以从1到N),并把号码写在形状、大小相同的号签上,号签可以用小球、卡片、纸条等制作,然后将这些号签放在同一个箱子里,进行均匀搅拌;
抽签:
抽签时,每次从中抽出1个号签,连续抽取
次;
成样:
对应号签就得到一个容量为
的样本。
抽签法简便易行,当总体的个体数不多时,适宜采用这种方法。
(2)随机数表法
编号:
对总体进行编号,保证位数一致;
数数:
当随机地选定开始读数的数后,读数的方向可以向右,也可以向左、向上、向下等等。
在读数过程中,得到一串数字号码,在去掉其中不合要求和与前面重复的号码后,其中依次出现的号码可以看成是依次从总体中抽取的各个个体的号码。
成样:
对应号签就得到一个容量为
的样本。
结论:
①用简单随机抽样,从含有N个个体的总体中抽取一个容量为
的样本时,每次抽取一个个体时任一个体被抽到的概率为
;在整个抽样过程中各个个体被抽到的概率为
;
②基于此,简单随机抽样体现了抽样的客观性与公平性;
③简单随机抽样的特点:
它是不放回抽样;它是逐个地进行抽取;它是一种等概率抽样。
2.系统抽样:
当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样)。
系统抽样的步骤可概括为:
(1)将总体中的个体编号。
采用随机的方式将总体中的个体编号;
(2)将整个的编号进行分段。
为将整个的编号进行分段,要确定分段的间隔
.当
是整数时,
;当
不是整数时,通过从总体中剔除一些个体使剩下的个体数N´能被
整除,这时
;
(3)确定起始的个体编号。
在第1段用简单随机抽样确定起始的个体边号
;
(4)抽取样本。
按照先确定的规则(常将
加上间隔
)抽取样本:
。
3.分层抽样:
当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层。
结论:
(1)分层抽样是等概率抽样,它也是公平的。
用分层抽样从个体数为N的总体中抽取一个容量为
的样本时,在整个抽样过程中每个个体被抽到的概率相等,都等于
;
(2)分层抽样是建立在简单随机抽样或系统抽样的基础上的,由于它充分利用了已知信息,因此利用它获取的样本更具有代表性,在实践的应用更为广泛。
例题:
【例1】某政府机关在编人员共100人,其中副处级以上干部10人,一般干部70人,工人20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,用下列哪种方法最合适
A.系统抽样B.简单随机抽样
C.分层抽样D.随机数表法
【例2】为了解1200名学生对学校教改试验的意见,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔k为
A.40B.30C.20D.12
【例3】从N个编号中要抽取n个号码入样,若采用系统抽样方法抽取,则分段间隔应为
A.
B.nC.[
]D.[
]+1
【例4】系统抽样适用的总体应是
A.容量较少的总体B.总体容量较多
C.个体数较多但均衡的总体D.任何总体
【例5】下列说法正确的个数是
①总体的个体数不多时宜用简单随机抽样法
②在总体均分后的每一部分进行抽样时,采用的是简单随机抽样
③百货商场的抓奖活动是抽签法
④整个抽样过程中,每个个体被抽取的机率相等(有剔除时例外)
A.1B.2C.3D.4
【例6】一批灯泡400只,其中20W、40W、60W的数目之比为4∶3∶1,现用分层抽样的方法产生一个容量为40的样本,三种灯泡依次抽取的个数为______________.
答案:
20、15、5
【例7】从总体为.的一批零件中用分层抽样抽取一个容量为30的样本,若每个零件被抽取的机率为0.25,则N等于
A.150B.200C.120D.100
【例8】一个总体的60个个体的编号为0,1,2,…,59,现要从中抽取一个容量为10的样本,请根据编号按被6除余3的方法,取足样本,则抽取的样本号码是______________.
答案:
3,9,15,21,27,33,39,45,51,57
解析:
即按等差数列抽取,首项为3,公差为6.
【例9】体育彩票000001~100000编号中,凡彩票号码最后三位数为345的中一等奖,采用的是系统抽样法吗?
为什么?
是系统抽样,系统抽样的步骤可概括为总体编号,确定间隔总体分段,在第一段内确定起始个体编号,每段内规则取样等几步.该抽样符合系统抽样的特点.
【例10】某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的总人数为12000人,其中持各种态度的人数如下表所示.
很喜爱
喜爱
一般
不喜爱
2435
4567
3926
1072
电视台为了了解观众的具体想法和意见,打算从中抽选出60人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中各应抽选出多少人?
∵
=
∴
≈12,
≈23,
≈20,
≈5.故四类人应分别抽取12、23、20、5人进行调查.
二、用样本估计总体
〈一〉频率分布的概念:
频率分布是指一个样本数据在各个小范围内所占比例的大小。
一般用频率分布直方图反映样本的频率分布。
其一般步骤为:
计算一组数据中最大值与最小值的差,即求极差
1、决定组距与组数
2、将数据分组
3、列频率分布表
4、画频率分布直方图
〈二〉频率分布直方图的特征:
1、从频率分布直方图可以清楚的看出数据分布的总体趋势。
2、从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
〈三〉频率分布折线图、总体密度曲线
1.频率分布折线图的定义:
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。
2.总体密度曲线的定义:
在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。
它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。
根据这条曲线,可求出总体在区间(a,b)内取值的概率等于该区间上总体密度曲线与x轴、直线x=a、x=b所围成曲边梯形的面积。
总体分布密度密度曲线函数y=f(x)的两条基本性质:
①f(x)≥0(x∈R);②由曲线y=f(x)与x轴围成面积为1。
例题:
【例1】为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:
4:
17:
15:
9:
3,第二小组频数为12.
(1)第二小组的频率是多少?
样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?
分析:
在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。
(1)由于频率分布直方图以面积的形式反映了数据
落在各小组内的频率大小,
因此第二小组的频率为
又因为频率=
所以
(2)由图可估计该学校高一学生的达标率约为
【例2】某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示,根据条形图可得这50名学生这一天平均每人的课外阅读时间为
A.0.6hB.0.9hC.1.0hD.1.5h
【例3】把容量为100的某个样本数据分为10组,并填写频率分布表,若前七组的累积频率为0.79,而剩下三组的频数成公比大于2的整数等比数列,则剩下三组中频数最高的一组的频数为___________.
由已知知前七组的累积频数为0.79×100=79,
故后三组共有的频数为21,
依题意
=21,a1(1+q+q2)=21(整解方程)
∵q>2,∴1+q+q2>7
.∴a1=1,q=4.
∴后三组频数最高的一组的频数为16.
【例4】某班学生在一次数学考试中成绩分布如下表:
分数段
[0,80)
[80,90)
[90,100)
人数
2
)
5
6
分数段
[100,110)
[110,120
[120,130)
人数
8
12
6
分数段
[130,140)
[140,150)
人数
4
2
那么分数在[100,110)中的频率和分数不满110分的累积频率分别是_____、_______(精确到0.01).
由频率计算方法知:
总人数=45.
分数在[100,110)中的频率为
=0.178≈0.18.
分数不满110分的累积频率为
=
≈0.47.
【例5】对某电子元件进行寿命追踪调查,情况如下:
寿命(h)
100~200
200~300
300~400
400~500
500~600
个数
20
30
80
40
30
(1)列出频率分布表;
(2)画出频率分布直方图和累积频率分布图;
(3)估计电子元件寿命在100~400h以内的概率;
(4)估计电子元件寿命在400h以上的概率.
(1)频率分布表如下:
寿命(h)
频数
频率
累积频率
100~200
20
0.10
0.10
200~300
30
0.15
0.25
300~400
80
0.40
0.65
400~500
40
0.20
0.85
500~600
30
0.15
1
合计
200
1
(2)频率分布直方图如下:
(3)由累积频率分布图可以看出,寿命在100~400h内的电子元件出现的频率为0.65,所以我们估计电子元件寿命在100~400h内的概率为0.65.
(4)由频率分布表可知,寿命在400h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400h以上的概率为0.35.
三、变量间的相关关系
1、相关关系的概念:
自变量取值一定时,因变量的取值带有一定的随机性,则两个变量之间的关系叫做相关关系.
2、ATTENTION
数关系不同.因为函数关系是一种非常确定的关系,而相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.而函数关系可以看成是两个非随机变量之间的关系.因此,不能把相关关系等同于函数关系,
(二)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如,有人发现,对于在校儿童,鞋的大小与阅读能力有很强的相关关系.然而,学会新词并不能使脚变大,而是涉及到第三个因素——年龄.当儿童长大一些,他们的阅读能力会提高而且由于长大脚也变大.
(三)在现实生活中存在着大量的相关关系,如何判断和描述相关关系,统计学发挥着非常重要的作用.变量之间的相关关系带有不确定性,这需要通过收集大量的数据,对数据进行统计分析,发现规律,才能作出科学的判断.
3、最小二乘法:
回归直线的定义,使离差的平方和Q=
最小的那条直线,这种使“离差的平方和为最小”的方法叫做最小二乘法,要掌握用最小二乘法求回归直线系数a、b的公式:
b=
a=
-b
.
﹡⊙求回归直线方程的步骤:
(1)将已知的数据列表,列出x,y,并求出x2,y2,xy.
✪
(2)利用公式b=
a=
-b
计算回归系数b,a.
(3)写出回归直线方程
=bx+a.
例题:
【例1】有关线性回归的说法,不正确的是
A.相关关系的两个变量不是因果关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任一组数据都有回归方程
【例2】下面哪些变量是相关关系
A.出租车费与行驶的里程B.房屋面积与房屋价格
C.身高与体重D.铁的大小与质量
【例3】回归方程
=1.5x-15,则
A.
=1.5
-15B.15是回归系数a
C.1.5是回归系数aD.x=10时,y=0
【例4】r是相关系数,则结论正确的个数为
①r∈[-1,-0.75]时,两变量负相关很强
②r∈[0.75,1]时,两变量正相关很强
③r∈(-0.75,-0.3]或[0.3,0.75)时,两变量相关性一般
④r=0.1时,两变量相关很弱
A.1B.2C.3D.4
【例5】线性回归方程
=bx+a过定点________.
答案:
(
,
)
【例6】已知回归方程
=4.4x+838.19,则可估计x与y的增长速度之比约为________.
答案:
【例7】为研究某市家庭平均收入与月平均生活支出的关系,该市统计调查队随机调查10个家庭,得数据如下:
家庭编号
1
2
3
4
5
6
7
8
9
10
xi(收入)千元
0.8
1.1
1.3
1.5
1.5
1.8
2.0
2.2
2.4
2.8
yi(支出)千元
0.7
1.0
1.2
1.0
1.3
1.5
1.3
1.7
2.0
2.5
求回归直线方程.
解析:
用计算机Excel软件作出散点图(如图2-3-12),观察呈线性正相关,并求出回归方程
=0.8136x-0.0044.
图2-3-12
图2-3-13
【例8】某市近10年的煤气消耗量与使用煤气户数的历史资料如下:
年份
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
x用户(万
户)
1
1.2
1.6
1.8
2
2.5
3.2
4
4.2
4.5
y(百万立方米)
6
7
9.8
12
12.1
14.5
20
24
25.4
27.5
(1)检验是否线性相关;
(2)求回归方程;
(3)若市政府下一步再扩大5千煤气用户,试预测该市煤气消耗量将达到多少.
解析:
用计算机Excel软件作出散点图(如图2-3-13),观察呈线性正相关,并求出回归方程.用计算机Excel软件求回归方程时,点选“显示r2的值”可进一步得到相关系数.
(1)r=0.998>0.632=r0.05,线性相关;
(2)
=0.08+6.06x;
(3)x0=4.5+0.5=5,代入得
=30.38,
所以煤气量约达3038万立方米.
【例9】有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的饮料杯数与当天气温的对比表:
摄氏温度
-5
0
4
7
12
15
19
23
27
31
36
热饮杯数
156
150
132
128
130
116
104
89
93
76
54
(1)画出散点图;
(2)从散点图中发现气温与热饮杯数之间关系的一般规律;
(3)求回归方程;
(4)如果某天的气温是2℃,预测这天卖出的热饮杯数。
x=2时,y=143.063
【例10】一个单位的职工有500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人.为了了解该单位职工年龄与身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取?
解析:
抽取人数与职工总数的比是100:
500=1:
5,则各年龄段(层)的职工人数依次是125:
280:
95=25:
56:
19,然后分别在各年龄段(层)运用简单随机抽样方法抽取.
所以,在分层抽样时,不到35岁、35~49岁、50岁以上的三个年龄段分别抽取25人、56人和19人.
【例11】某校500名学生中,O型血有200人,A型血有125人,B型血有125人,AB型血有50人,为了研究血型与色弱的关系,需从中抽取一个容量为20的样本.按照分层抽样方法抽取样本,各种血型的人分别多少?
写出抽样过程.
解析:
用分层抽样方法抽样,O型血抽8人,A型血抽5人,B型血抽5人,AB型血抽2人,各种血型的抽取可用简单随机抽样(如AB型)或系统抽样(如A型),直至取容量为20的样本.
【例12】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次实验,收集数据如下:
零件数x(个)
10
20
30
40
50
60
70
80
加工时间y(分钟)
62
68
75
81
89
95
102
108
(1)画出散点图;
(2)求回归方程;
(3)关于加工零件的个数与加工时间,你能得出什么结论?
解析:
(1)散点图略.
(2)Ⅰ.先把数据列成表.
项目
类型
零件数x
加工时间Y
x2
Y2
xY
A
10
62
100
3844
620
B
20
68
400
4624
1360
C
30
75
900
5625
2250
D
40
81
1600
6561
3240
E
50
89
2500
7921
4450
F
60
95
3600
9025
5700
G
70
102
4900
10404
7140
H
80
108
6400
11664
8640
∑
360
680
20400
59668
33400
Ⅱ.计算b,a的值.
由上表分别计算x,Y的平均数得
=
=
.
代入公式b=
a=
-b
得(注意:
不必把
化为小数,以减小误差)
b=
=
=0.666667,
a=
-0.666667×
=85-30=55.
Ⅲ.写出回归直线方程.
=55+0.666667x.
(3)回归直线方程
=55+0.666667x中的回归系数b=0.666667,它的意义是:
零件数每增加一个,加工时间平均增加0.666667min.
《统计》单元测试题
一、选择题:
(本题共14小题,每小题4分,共56分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1、抽样调查在抽取调查对象时
A、按一定的方法抽取B、随意抽取
C、全部抽取D、根据个人的爱好抽取
2、对于简单随机抽样,下列说法中正确的命题为
①它要求被抽取样本的总体的个数有限,以便对其中各个个体被抽取的概率进行分析;②它是从总体中逐个地进行抽取,以便在抽取实践中进行操作;③它是一种不放回抽样;④它是一种等概率抽样,不仅每次从总体中抽取一个个体时,各个个体被抽取的概率相等,而且在整个抽样过程中,各个个体被抽取的概率也相等,从而保证了这种方法抽样的公平性。
A、①②③B、①②④C、①③④D、①②③④
3、某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点,公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为
(1);在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为
(2)。
则完成
(1)、
(2)这两项调查宜采用的抽样方法依次是
A、分层抽样法,系统抽样法B、分层抽样法,简单随机抽样法
C、系统抽样法,分层抽样法D、简单随机抽样法,分层抽样法
4、某小礼堂有25排座位,每排有20个座位。
一次心理讲座时礼堂中坐满了学生,会后为了了解有关情况,留下了座位号是15的所有的25名学生测试。
这里运用的抽样方法是
A、抽签法B、随机数表法C、系统抽样法D、分层抽样法
5、我校高中生共有2700人,其中高一年级900人,高二年级1200人,高三年级600人,现采取分层抽样法抽取容量为135的样本,那么高一、高二、高三各年级抽取的人数分别为
A、45,75,15B、45,45,45C、30,90,15D、45,60,30
6、中央电视台动画城节目为了对本周的热心小观众给予奖励,要从已确定编号的一万名小观众中抽出十名幸运小观众。
现采用系统抽样方法抽取,其组容量为
A、10B、100C、1000D、10000
7、对总数为
的一批零件抽取一个容量为30的样本,若每个零件被抽取的可能性为25%,则
为
A、150B、200C、100D、120
8、某中学有高级教师28人,中级教师54人,初级教师81人,为了调查他们的身体状况,从他们中抽取容量为36的样本,最适合抽取样本的方法是
A、简单随机抽样B、系统抽样
C、分层抽样D、先从高级教师中随机剔除1人,再用分层抽样
9、一个容量为35的样本数据,分组后,组距与频数如下:
个;
个;
个;
个;
个;
个。
则样本在区间
上的频率为
A、20%B、69%C、31%D、27%
10、在用样本估计总体分布的过程中,下列说法正确的是
A、总体容量越大,估计越精确B、总体容量越小,估计越精确
C、样本容量越大,估计越精确D、样本容量越小,估计越精确
11、下列对一组数据的分析,不正确的说法是
A、数据极差越小,样本数据分布越集中、稳定
B、数据平均数越小,样本数据分布越集中、稳定
C、数据标准差越小,样本数据分布越集中、稳定
D、数据方差越小,样本数据分布越集中、稳定
12、下列两个变量之间的关系是相关关系的是
A、正方体的棱长和体积B、单位圆中角的度数和所对弧长
C、单产为常数时,土地面积和总产量D、日照时间与水稻的亩产量
13、对于给定的两个变量的统计数据,下列说法正确的是
A、都可以分析出两个变量的关系B、都可以用一条直线近似地表示两者的关系
C、都可以作出散点图D、都可以用确定的表达式表示两者的关系
14、观察新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿体重在
的频率为
A、0.001B、0.1
《统计》测试题答题卷
班级姓名学号成绩
一、选择题答题处:
题号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
答案
二、填空题:
(本题共6小题,每小题4分,共24分,请把答案填写在横线上)
15、若总体中含有1650个个体,现在要采用系统抽样,从中抽取一个容量为35的样本,分段时应从总体中随机剔除个个体,编号后应均分为段,每段有个个体。
16、某工厂生产的产品用传送带将其送入包装车间之前,质检员每隔5分钟从传送带某一位置取一件产品检测,则这种抽样方法是。
17、某工厂生产A、B、C三种不同型号的产品,产品数量之比依次为
。
现用分层抽样的方法抽出一个容量为
的样本,样本中A种型号的产品共有16件,那么此样本的容量
件。
18、