高中数学知识梳理与训练第十章 统计与统计案例 第2节 用样本估计总体Word文档格式.docx
《高中数学知识梳理与训练第十章 统计与统计案例 第2节 用样本估计总体Word文档格式.docx》由会员分享,可在线阅读,更多相关《高中数学知识梳理与训练第十章 统计与统计案例 第2节 用样本估计总体Word文档格式.docx(19页珍藏版)》请在冰点文库上搜索。
![高中数学知识梳理与训练第十章 统计与统计案例 第2节 用样本估计总体Word文档格式.docx](https://file1.bingdoc.com/fileroot1/2023-5/11/5025810d-3a1a-4593-a8df-5027ff6d1b41/5025810d-3a1a-4593-a8df-5027ff6d1b411.gif)
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
基础自测
1.判断下列结论正误(在括号内打“√”或“×
”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(2)一组数据的方差越大,说明这组数据越集中.( )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
解析
(1)正确.平均数、众数与中位数都在一定程度上反映了数据的集中趋势.
(2)错误.方差越大,这组数据越离散.
(3)正确.小矩形的面积=组距×
=频率.
(4)错误.茎相同的数据,叶可不用按从小到大的顺序写,相同的数据叶要重复记录,故(4)错误.
答案
(1)√
(2)×
(3)√ (4)×
2.(必修3P1002
(1)改编)一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )
A.4B.8C.12D.16
解析 设频数为n,则=0.25,
∴n=32×
=8.
答案 B
3.(必修3P70示例改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5B.91.5和92
C.91和91.5D.92和92
解析 这组数据由小到大排列为87,89,90,91,92,93,94,96,
∴中位数是=91.5,
平均数==91.5.
答案 A
4.(2018·
全国Ⅰ卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
解析 法一 设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.
法二 因为0.6<
0.37×
2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.
5.(2019·
新余二模)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;
男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是( )
A.是否倾向选择生育二胎与户籍有关
B.是否倾向选择生育二胎与性别无关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
解析 由题图,可得是否倾向选择生育二胎与户籍有关、性别无关,倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数,倾向选择生育二胎的人员中,男性人数为60×
60%=36,女性人数为40×
60%=24,不相同.故选C.
答案 C
6.(2019·
马鞍山质检)已知样本容量为200,在样本的频率分布直方图中,共有n个小矩形,若中间一个小矩形的面积等于其余(n-1)个小矩形面积和的,则该组的频数为________.
解析 设除中间一个小矩形外的(n-1)个小矩形面积的和为P,则中间一个小矩形面积为P,P+P=1,P=,则中间一个小矩形的面积等于P=,200×
=50,即该组的频数为50.
答案 50
考点一 茎叶图及其应用
【例1】
(1)(2018·
济南模拟)中国诗词大会的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为( )
A.2B.4C.5D.6
(2)(2019·
长沙质检)为比较甲乙两地某月11时的气温情况,随机选取该月5天11时的气温数据(单位:
℃)制成如图所示的茎叶图,已知甲地该月11时的平均气温比乙地该月11时的平均气温高1℃,则甲地该月11时的平均气温的标准差为( )
A.2B.C.10D.
解析
(1)由茎叶图可得,获“诗词达人”称号的有8人,据该次比赛的成就按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词达人”称号的人数为8×
=2(人).
(2)甲地该月5天11时的气温数据(单位:
℃)为28,29,30,30+m,32;
乙地该月5天11时的气温数据(单位:
℃)为26,28,29,31,31,
则乙地该月11时的平均气温为(26+28+29+31+31)÷
5=29(℃),
所以甲地该月11时的平均气温为30℃,
故(28+29+30+30+m+32)÷
5=30,解得m=1.
则甲地该月11时的平均气温的标准差为
=.
答案
(1)A
(2)B
规律方法 1.茎叶图的三个关注点
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.
(2)重复出现的数据要重复记录,不能遗漏.
(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息.
【训练1】空气质量指数(AirQualityIndex,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;
51~100为良;
101~150为轻度污染;
151~200为中度污染;
201~300为重度污染;
大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如下.根据该统计数据,估计此地该年AQI大于100的天数约为________(该年为365天).
解析 该样本中AQI大于100的频数是4,频率为,
由此估计该地全年AQI大于100的频率为,
估计此地该年AQI大于100的天数约为365×
=146.
答案 146
考点二 频率分布直方图
【例2】(2019·
石家庄模拟)“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:
[20,25),第二组:
[25,30),第三组:
[30,35),第四组:
[35,40),第五组:
[40,45],得到如图所示的频率分布直方图,已知第一组有6人.
(1)求x;
(2)求抽取的x人的年龄的中位数(结果保留整数);
(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.
(ⅰ)分别求5个年龄组和5个职业组成绩的平均数和方差;
(ⅱ)以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.
解
(1)根据频率分布直方图得第一组的频率为0.01×
5=0.05,
∴=0.05,∴x=120.
(2)设中位数为a,则0.01×
5+0.07×
5+(a-30)×
0.06=0.5,
∴a=≈32,则中位数为32.
(3)(ⅰ)5个年龄组成绩的平均数为1=×
(93+96+97+94+90)=94,方差为s=×
[(-1)2+22+32+02+(-4)2]=6.
5个职业组成绩的平均数为2=×
(93+98+94+95+90)=94,方差为s=×
[(-1)2+42+02+12+(-4)2]=6.8.
(ⅱ)从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可).
规律方法 1.频率分布直方图的性质.
(1)小长方形的面积=组距×
=频率;
(2)各小长方形的面积之和等于1;
(3)小长方形的高=,所有小长方形的高的和为.
2.要理解并记准频率分布直方图与众数、中位数及平均数的关系.
【训练2】某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频率分布表.
A地区用户满意度评分的频率分布直方图
图①
B地区用户满意度评分的频率分布表
满意度评分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
2
8
14
10
6
(1)在图②中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);
B地区用户满意度评分的频率分布直方图
图②
(2)根据用户满意度评分,将用户和满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
估计哪个地区用户的满意度等级为不满意的概率大?
说明理由.
解
(1)作出频率分布直方图如图:
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;
B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
(2)A地区用户的满意度等级为不满意的概率大.
记CA表示事件:
“A地区用户的满意度等级为不满意”;
CB表示事件:
“B地区用户的满意度等级为不满意”.
由直方图得P(CA)的估计值为(0.01+0.02+0.03)×
10=0.6,
P(CB)的估计值为(0.005+0.02)×
10=0.25.
所以A地区用户的满意度等级为不满意的概率大.
考点三 样本的数字特征
【例3】
(1)(2017·
全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:
kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值D.x1,x2,…,xn的中位数
济南模拟)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则( )
A.=4,s2<
2B.=4,s2>
C.>
4,s2<
2D.>
4,s2>
解析
(1)刻画评估这种农作物亩产量稳定程度的指标是标准差.
(2)∵某7个数的平均数为4,∴这7个数的和为4×
7=28,∵加入一个新数据4,∴==4.又∵这7个数的方差为2,且加入一个新数据4,∴这8个数的方差s2==<
2,故选A.
答案
(1)B
(2)A
规律方法 1.平均数反映了数据取值的平均水平,而方差、标准差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据离散程度越大,越不稳定;
标准差、方差越小,数据的离散程度越小,越稳定.
2.用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
【训练3】
(1)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:
环),结果如下:
运动员
第1次
第2次
第3次
第4次
第5次
甲
87
91
90
89
93
乙
88
92
则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.
(2)(2018·
北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:
分钟)用茎叶图记录如下:
假设每名同学最近一周平均每天的锻炼时间是互相独立的.
①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大;
②从平均值分析,男生每天锻炼的时间比女生多;
③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;
④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.
其中符合茎叶图所给数据的结论是( )
A.①②③B.②③④C.①②④D.①③④
解析
(1)甲=(87+91+90+89+93)=90,
乙=(89+90+91+88+92)=90,
s=[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,
s=[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.
(2)由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.
男生平均每天锻炼时间超过65分钟的概率p1==,女生平均每天锻炼时间超过65分钟的概率p2==,p1>
p2,因此④正确.
设男生、女生两组数据的平均数分别为甲,乙,标准差分别为s甲,s乙.
易求甲=65.2,乙=61.8,知甲>
乙,②正确.
又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,
∴s甲<
s乙,③错误,
因此符合茎叶图所给数据的结论是①②④.
答案
(1)2
(2)C
[思维升华]
1.用样本估计总体是统计的基本思想.
用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;
难点是频率分布表和频率分布直方图的理解及应用.
2.
(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.
(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.
3.茎叶图、频率分布表和频率分布直方图都可直观描述样本数据的分布规律.
[易错防范]
1.在使用茎叶图时,一定要注意看清楚所有的样本数据,弄清楚这个图中的数字特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.
2.直方图与条形图不要搞混
频率分布直方图的纵坐标为频率/组距,每一个小长方形的面积表示样本个体落在该区间内的频率;
条形图的纵坐标为频数或频率,把直方图视为条形图是常见的错误.
基础巩固题组
(建议用时:
40分钟)
一、选择题
1.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )
A.45B.50C.55D.60
解析 由频率分布直方图,知低于60分的频率为(0.010+0.005)×
20=0.3.
∴该班学生人数n==50.
2.甲、乙、丙、丁四人参加某运动会射击项目的选拔赛,四人的平均成绩和方差如下表所示:
丙
丁
平均环数
8.3
8.8
8.7
方差s2
3.5
3.6
2.2
5.4
从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )
A.甲B.乙C.丙D.丁
解析 由题表中数据可知,丙的平均环数最高,且方差最小,说明技术稳定,且成绩好.
3.小凯利用上下班时间跑步健身,随身佩戴的手环记录了近11周的跑步里程(单位:
km)的数据,绘制了下面的折线图.
根据折线图,下列结论正确的是( )
A.剔除第8周数据,周跑步里程逐周增加
B.周跑步里程的极差为20km
C.周跑步里程的平均数低于第7周对应的里程数
D.周跑步里程的中位数为第6周对应的里程数
解析 剔除第8周数据,周跑步里程逐周有增有减,A错;
周跑步里程的极差比20km稍小,B错;
周跑步里程的中位数为第5周对应的里程数,D错.故选C.
茂名联考)甲、乙两组数的数据如茎叶图所示,则甲、乙的平均数、方差、极差及中位数相同的是( )
A.极差B.方差C.平均数D.中位数
解析 由题中茎叶图中数据的分布,可知方差不同,极差不同,
甲的中位数为=18.5,乙的中位数为=16,
甲==,
乙==,
所以甲、乙的平均数相同.故选C.
5.(2018·
保定质检)某教研机构随机抽取某校20个班级,调查各班关注汉字听写大赛的学生人数,根据所得数据的茎叶图,以组距为5将数据分组成[0,5),[5,10),[10,15),[15,20),[20,25),[25,30),[30,35),[35,40]时,所作的频率分布直方图如图所示,则原始茎叶图可能是( )
解析 由频率分布直方图可知,[0,5)的频数为20×
0.01×
5=1,[5,10)的频数为20×
5=1,[10,15)的频数为20×
0.04×
5=4,[15,20)的频数为20×
0.02×
5=2,[20,25)的频数为20×
5=4,[25,30)的频数为20×
0.03×
5=3,[30,35)的频数为20×
5=3,[35,40]的频数为20×
5=2,则对应的茎叶图为A.
二、填空题
6.某校女子篮球队7名运动员身高(单位:
cm)分布的茎叶图如图,已知记录的平均身高为175cm,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x,那么x的值为________.
解析 170+×
(1+2+x+4+5+10+11)=175,
×
(33+x)=5,即33+x=35,解得x=2.
答案 2
7.对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:
(1)[25,30)年龄组对应小矩形的高度为________;
(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为________.
解析 设[25,30)年龄组对应小矩形的高度为h,则5×
(0.01+h+0.07+0.06+0.02)=1,解得h=0.04.则志愿者年龄在[25,35)年龄组的频率为5×
(0.04+0.07)=0.55,故志愿者年龄在[25,35)年龄组的人数约为0.55×
800=440.
答案
(1)0.04
(2)440
8.已知样本数据x1,x2,…,xn的平均数=5,则样本数据2x1+1,2x2+1,…,2xn+1的平均数为________.
解析 由x1,x2,…,xn的平均数=5,得2x1+1,2x2+1,…,2xn+1的平均数为2+1=2×
5+1=11.
答案 11
三、解答题
9.为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:
h).试验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5
2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4
服用B药的20位患者日平均增加的睡眠时间:
3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4
1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?
解
(1)设A药观测数据的平均数为,B药观测数据的平均数为,
由观测结果可得=×
(0.6+1.2+2.7+1.5+2.8+1.8+2.2+2.3+3.2+3.5+2.5+2.6+1.2+2.7+1.5+2.9+3.0+3.1+2.3+2.4)=2.3,
=×
(3.2+1.7+1.9+0.8+0.9+2.4+1.2+2.6+1.3+1.4+1.6+0.5+1.8+0.6+2.1+1.1+2.5+1.2+2.7+0.5)=1.6.
由以上计算结果可得>
,因此可看出A药的疗效更好.
(2)由观测结果可绘制如下茎叶图:
从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的疗效更好.
10.(2017·
北京卷)某大学艺术专业400名学生参加某次测评,根据男女学