高考理科数学尖子生讲义专题十五统计统计案例.docx
《高考理科数学尖子生讲义专题十五统计统计案例.docx》由会员分享,可在线阅读,更多相关《高考理科数学尖子生讲义专题十五统计统计案例.docx(28页珍藏版)》请在冰点文库上搜索。
高考理科数学尖子生讲义专题十五统计统计案例
专题十五统计、统计案例
卷Ⅰ
卷Ⅱ
卷Ⅲ
2018
统计图的识别与分析·T3
折线图、线性回归方程模型问题·T18
茎叶图的应用及独立性检验·T18
2017
______-
频率分布直方图、独立性检验·T18
折线图的识别与分析·T3
2016
________
_______
统计图表的识别与分析·T4
折线图、相关性检验、线性回归方程及应用·T18
纵向把握趋势
卷Ⅰ3年1考,题型为选择题且难度较小,涉及统计图的识别与分析.预计2019年会以选择题的形式考查折线图、线性回归方程等问题,难度适中
卷Ⅱ3年2考,题型均为解答题的第18题,涉及折线图、频率分布直方图、线性回归方程、独立性检验,难度适中.预计2019年仍会以解答题的形式考查独立性检验或线性回归模型的应用
卷Ⅲ3年4考,既有选择题也有解答题,小题主要考查统计图表、折线图的识别与分析,解答题考查线性回归方程的应用及独立性检验.预计2019年会以解答题的形式考查线性回归模型的应用,同时以选择题的形式考查统计图表的识别与分析
横向把握重点
1.统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在3~4题的位置.
2.统计与统计案例在解答题中多出现在18或19题,多考查直方图、茎叶图及数字特征计算、统计案例的应用.
抽样方法
[题组全练]
1.(2018·石家庄模拟)某校高一年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为140的样本,则此样本中男生人数为( )
A.80 B.120
C.160D.240
解析:
选A 因为男生和女生的比例为560∶420=4∶3,样本容量为140,所以应该抽取男生的人数为140×=80,故选A.
2.(2018·南宁模拟)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.100,20B.200,20
C.200,10D.100,10
解析:
选B 由题图甲可知学生总人数是10000,样本容量为10000×2%=200,抽取的高中生人数是2000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.
3.从30个个体(编号为00~29)中抽取10个样本,现给出某随机数表的第11行到第15行(见下表),如果某人选取第12行的第6列和第7列中的数作为第一个数并且由此数向右读,则选取的前4个的号码分别为( )
9264 4607 2021 3920 7766 3817 3256 1640
58587766317005002593054553707814
28896628675782311589006200473815
51318186370945216665532553832702
90557196217232071114138443594488
A.76,63,17,00 B.16,00,02,30
C.17,00,02,25D.17,00,02,07
解析:
选D 在随机数表中,将处于00~29的号码选出,满足要求的前4个号码为17,00,02,07.
4.(2019届高三·南昌调研)某校高三
(2)班现有64名学生,随机编号为0,1,2,…,63,依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8的样本,若在第1组中随机抽取的号码为5,则在第6组中抽取的号码为________.
解析:
由题知分组间隔为=8,又第1组中抽取的号码为5,所以第6组中抽取的号码为5×8+5=45.
答案:
45
5.采用系统抽样方法从1000人中抽取50人做问卷调查,将他们随机编号1,2,…,1000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为________.
解析:
根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d==20的等差数列{an},∴通项公式an=8+20(n-1)=20n-12,令751≤20n-12≤1000,得≤n≤,又∵n∈N*,∴39≤n≤50,∴做问卷C的共有12人.
答案:
12
[系统方法]
解决抽样问题应关注的两点
(1)解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.
(2)在系统抽样的过程中,要注意分段间隔,需要抽取n个个体,样本就需要分成n个组,则分段间隔即为(N为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
用样本估计总体
[题组全练]
1.(2019届高三·贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是( )
A.15B.18
C.20D.25
解析:
选A 根据频率分布直方图,得第二小组的频率是0.04×10=0.4,∵频数是40,∴样本容量是=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,∴成绩在80~100分的学生人数是100×0.15=15.
2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
解析:
选A 设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.
新农村建设前后,各项收入的对比如下表:
新农村建设前
新农村建设后
新农村建设后变化情况
结论
种植收入
60%a
37%×2a=74%a
增加
A错
其他收入
4%a
5%×2a=10%a
增加一倍以上
B对
养殖收入
30%a
30%×2a=60%a
增加了一倍
C对
养殖收入+第三产业收入
(30%+6%)a=36%a
(30%+28%)×2a=116%a
超过经济收入2a的一半
D对
故选A.
3.(2018·长春质检)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( )
A.95,94B.92,86
C.99,86D.95,91
解析:
选B 由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B.
4.(2018·武汉调研)从某选手的7个得分中去掉1个最高分,去掉1个最低分后,剩余5个得分的平均数为91分,如图所示是该选手得分的茎叶图,其中有一个数字模糊,无法辨认,在图中用x表示,则剩余5个得分的方差为________.
解析:
去掉一个最高分99分,一个最低分87分,剩余的得分为93分,90分,(90+x)分,91分,87分,则=91,解得x=4,所以这5个数的方差s2=[(91-93)2+(91-90)2+(91-94)2+(91-91)2+(91-87)2]=6.
答案:
6
[系统方法]
1.频率分布直方图的应用
(1)已知频率分布直方图中的部分数据,求其他数据.可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1就可求出其他数据.
(2)已知频率分布直方图,求某种范围内的数据.可利用图形及某范围结合求解.
2.数字特征及其特点
平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.
回归分析
[多维例析]
角度一 线性回归分析
(2018·陕西质检)基于移动互联网技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验.某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司2018年6月~11月六个月内的市场占有率进行了统计,结果如下表:
月份
6月
7月
8月
9月
10月
11月
月份代码x
1
2
3
4
5
6
市场占有率y(%)
11
13
16
15
20
21
(1)请在给出的坐标纸中作出散点图,并用相关系数说明能否用线性回归模型拟合市场占有率y与月份代码x之间的关系;
(2)求y关于x的线性回归方程,并预测该公司2019年3月份的市场占有率.
参考数据:
(xi-)2=17.5,(xi-)(yi-)=35,≈36.5.
参考公式:
相关系数r=;
回归直线方程为=x+,
其中=,=-.
[解]
(1)作出散点图如下.
∵==16,
∴(yi-)2=76,
∴r==
=≈≈0.96.
∴两变量之间具有较强的线性相关关系,故可用线性回归模型拟合市场占有率y与月份代码x之间的关系.
(2)由参考数据及
(1)知===2,
==3.5,
∴=-=16-2×3.5=9,
∴y关于x的线性回归方程为=2x+9.
2019年3月的月份代码为x=10,∴=2×10+9=29,
∴估计该公司2019年3月份的市场占有率为29%.
[类题通法]
1.求线性回归方程的步骤
(1)计算,;
(2)计算iyi,;
(3)计算==;
=-;
(4)写出线性回归方程=x+.
[注意] 样本点的中心(,)必在回归直线上.
2.相关系数r
(1)当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
(2)r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
角度二 非线性回归分析
某机构为研究某种图书每册的成本费y(单位:
元)与印刷数量x(单位:
千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
(xi-)2
(xi-)(yi-)
(ui-)2
(ui-)(yi-)
15.25
3.63
0.269
2085.5
-230.3
0.787
7.049
表中ui=,=i.
(1)根据散点图判断:
y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:
元)与印刷数量x(单位:
千册)的回归方程?
(只要求给出判断,不必说明理由)
(2)根据
(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01).
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78840元?
(假设能够全部售出.结果精确到1)
附:
对于一组数据(ω1,ν1),(ω2,ν2),…,(ωn,νn),其回归直线=+ω的斜率和截距的最小二乘估计分别为=,=-.
[解]
(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:
元)与印刷数量x(单位:
千册)的回归方程.
(2)令u=,先建立y关于u的线性回归方程,
由于==≈8.957≈8.96,
∴=-·=3.63-8.957×0.269≈1.22,
∴y关于u的线性回归方程为=1.22+8.96u,
∴y关于x的回归方程为=1.22+.
(3)假设印刷x千册,
依题意得10x-x≥78.840,
∴x≥10,
∴至少印刷10000册才能使销售利润不低于78840元.
[类题通法]
解决非线性回归问题的关键是适当换元,将非线性回归分析转化为线性回归分析问题求解.
[综合训练]
1.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:
亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:
=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:
=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?
并说明理由.
解:
(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)
2.某市春节期间7家超市的广告费支出xi(万元)和销售额yi(万元)数据如下:
超市
A
B
C
D
E
F
G
广告费支出x
1
2
4
6
11
13
19
销售额y
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程为=-0.17x2+5x+20,经计算二次函数回归模型和线性回归模型的R2分别约为0.92和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为3万元时的销售额.
参数数据及公式:
=8,=42,iyi=2794,
=708,=,=-.
解:
(1)∵===1.7,
∴=-=42-1.7×8=28.4.
∴y关于x的线性回归方程是=1.7x+28.4.
(2)∵0.75<0.92,
∴二次函数回归模型更合适.
当x=3万元时,=-0.17×9+5×3+20=33.47,
∴预测A超市销售额为33.47万元.
独立性检验
[由题知法]
(2018·郑州质量预测)2018年10月份郑州市进行了高三学生的体育学业水平测试,为了考察高中学生的身体素质情况,现抽取了某校1000名(男生800名,女生200名)学生的测试成绩,根据性别按分层抽样的方法抽取100名学生的测试成绩进行分析,得到如下统计表:
男生测试情况:
抽样情况
病残免试
不合格
合格
良好
优秀
人数
5
10
15
47
x
女生测试情况:
抽样情况
病残免试
不合格
合格
良好
优秀
人数
2
3
10
y
2
(1)现从抽取的100名且测试等级为“优秀”的学生中随机选出2名学生,求选出的这2名学生恰好是一男一女的概率;
(2)若测试等级为“良好”或“优秀”的学生为“体育达人”,其他等级(含病残免试)的学生为“非体育达人”,根据以上统计数据填写下面列联表,并回答能否在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关?
”
男性
女性
总计
体育达人
非体育达人
总计
临界值表:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
附:
K2=,其中n=a+b+c+d.
[解]
(1)按分层抽样的方法男生应抽取80名,女生应抽取20名,
∴x=80-(5+10+15+47)=3,y=20-(2+3+10+2)=3.
抽取的100名且测试等级为“优秀”的3名男生分别记为A,B,C,2名女生分别记为a,b.
从5名学生中任选2名,总的基本事件有(A,B),(A,C),(A,a),(A,b),(B,C),(B,a),(B,b),(C,a),(C,b),(a,b),共10个.
设“选出的2名学生恰好是一男一女”为事件M,
则事件M包含的基本事件有(A,a),(A,b),(B,a),(B,b),(C,a),(C,b),共6个,
∴P(A)==.
(2)2×2列联表如下:
男生
女生
总计
体育达人
50
5
55
非体育达人
30
15
45
总计
80
20
100
则K2=
=≈9.091.
∵9.091>6.635且P(K2≥6.635)=0.010,
∴能在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关”.
[类题通法] 独立性检验的关键
(1)根据2×2列联表准确计算K2的观测值k,若2×2列联表没有列出来,要先列出此表.
(2)K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
[应用通关]
2018年2月22日上午,山东省委、省政府在济南召开山东省全面展开新旧动能转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品.设备改造前的样本的频率分布直方图和设备改造后的样本的频数分布表如下所示.
设备改造后样本的频数分布表:
质量指标值
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
[40,45]
频数
4
36
96
28
32
4
(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关;
设备改造前
设备改造后
总计
合格品
不合格品
总计
(2)根据上述数据,试从产品合格率的角度对改造前后设备的优劣进行比较;
(3)根据市场调查,设备改造后,每生产一件合格品企业可获利180元,一件不合格品亏损100元,用频率估计概率,求生产1000件产品企业大约能获利多少元?
附:
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
K2=,n=a+b+c+d.
解:
(1)根据题中图和表得到2×2列联表:
设备改造前
设备改造后
总计
合格品
172
192
364
不合格品
28
8
36
总计
200
200
400
将2×2列联表中的数据代入公式得
K2=≈12.210.
∵12.210>6.635,
∴有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)由2×2列联表可知,
设备改造后产品的合格率约为=0.96,
设备改造前产品的合格率约为=0.86,
即设备改造后产品的合格率更高,因此,设备改造后性能更好.
(3)用频率估计概率,1000件产品中大约有960件合格品,40件不合格品,则180×960-100×40=168800,
∴该企业大约能获利168800元.
[专题跟踪检测](对应配套卷P200)
1.在一次马拉松比赛中,35名运动员的成绩(单位:
分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )
A.3 B.4
C.5D.6
解析:
选B 由系统抽样可知,35人分为7组,每组5人,最后一组成绩均大于151,前两组成绩均小于139,故成绩在区间[139,151]上的运动员人数为4.
2.“双色球”彩票中红色球的号码由编号为01,02,…,33的33个个体组成,一位彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为( )
4954435482173793237887352096438426349164
5724550688770474476721763350258392120676
A.23B.09
C.02D.17
解析:
选C 从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02.故选C.
3.(2018·昆明调研)下图是1951~2016年我国年平均气温变化图.
根据上图,判断下列结论正确的是( )
A.1951年以来,我国年平均气温逐年增高
B.1951年以来,我国年平均气温在2016年再创新高
C.2000年以来,我国年平均气温都高于1981~2010年的平均值
D.2000年以来,我国年平均气温的平均值高于1981~2010年的平均值
解析:
选D 由1951~2016年我国年平均气温变化图可以看出,年平均气温有升高的也有降低的,所以选项A不正确;2016年的年平均气温不是最高的,所以选项B不正确;2012年的年平均气温低于1981~2010年的平均值,所以选项C不正确;2000年以来,只有2012年的年平均气温低于1981~2010年的平均值,所以2000年以来,我国年平均气温的平均值高于1981~2010年的平均值,故