考点22 回归方程和22联表新高考地区专用原卷版.docx
《考点22 回归方程和22联表新高考地区专用原卷版.docx》由会员分享,可在线阅读,更多相关《考点22 回归方程和22联表新高考地区专用原卷版.docx(32页珍藏版)》请在冰点文库上搜索。
考点22回归方程和22联表新高考地区专用原卷版
考点22回归方程和2×2联表
一.线性关系
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:
一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:
是两个具有线性相关关系的变量的一组数据
的回归方程,其中是待定参数.的计算公式.
注意:
回归方程必过样本中心,这也是做小题的依据和检验所求回归方程是否正确。
(3)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
二.独立性检验
(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
考向一一次线性关系
【例1-1】(2020·山东高三专题练习)某工厂的每月各项开支与毛利润(单位:
万元)之间有如下关系,与的线性回归方程,则()
2
4
5
6
8
30
40
60
50
70
A.17.5B.17C.15D.15.5
【例1-2】(2021·全国高三专题练习)西尼罗河病毒(WNV)是一种脑炎病毒,WNV通常是由鸟类携带,经蚊子传播给人类.1999年8-10月,美国纽约首次爆发了WNV脑炎流行.在治疗上目前尚未有什么特效药可用,感染者需要采取输液及呼吸系统支持性疗法,有研究表明,大剂量的利巴韦林含片可抑制WNV的复制,抑制其对细胞的致病作用.现某药企加大了利巴韦林含片的生产,为了提高生产效率,该药企负责人收集了5组实验数据,得到利巴韦林的投入量x(千克)和利巴韦林含片产量y(百盒)的统计数据如下:
投入量x(千克)
1
2
3
4
5
产量y(百盒)
16
20
23
25
26
由相关系数可以反映两个变量相关性的强弱,
,认为变量相关性很强;
,认为变量相关性一般;
,认为变量相关性较弱.
(1)计算相关系数r,并判断变量x、y相关性强弱;
(2)根据上表中的数据,建立y关于x的线性回归方程;为了使某组利巴韦林含片产量达到150百盒,估计该组应投入多少利巴韦林?
参考数据:
.
参考公式:
相关系数
,线性回归方程中,
,.
【举一反三】
1.(2020·全国高三专题练习)某工厂某产品产量(千件)与单位成本(元)满足回归直线方程
则以下说法中正确的是( )
A.产量每增加件,单位成本约下降元B.产量每减少件,单位成本约下降元
C.当产量为千件时,单位成本为元D.当产量为千件时,单位成本为元
2.(2020·安徽省六安中学高三开学考试)“关注夕阳、爱老敬老”—某马拉松协会从年开始每年向敬老院捐赠物资和现金.下表记录了第年(年是第一年)与捐赠的现金(万元)的对应数据,由此表中的数据得到了关于的线性回归方程
,则预测年捐赠的现金大约是()
A.万元B.万元C.万元D.万元
3.(2020·全国高三专题练习)基于移动互联技术的共享单车被称为“新四大发明”之一,短时间内就风靡全国,带给人们新的出行体验、某共享单车运营公司的市场研究人员为了解公司的经营状况,对该公司最近六个月内的市场占有率进行了统计,结果如下表:
月份
月份代码
市场占有率()
(1)请在给出的坐标纸中作出散点图,并用相关系数说明可用线性回归模型拟合月度市场占有率与月份代码之间的关系;
(2)求关于的线性回归方程,并预测该公司年月份的市场占有率;
(3)根据调研数据,公司决定再采购一批单车扩大市场,现有采购成本分别为元/辆和元/辆的、两款车型报废年限各不相同,考虑到公司的经济效益,该公司决定先对两款单车各辆进行科学模拟测试,得到两款单车使用寿命频数表如下:
报废年限
车型
年
年
年
年
总计
经测算,平均每辆单车每年可以为公司带来收入元.不考虑除采购成本之外的其他成本,假设每辆单车的使用寿命都是整数年,且用频率估计每辆单车使用寿命的概率,以每辆单车产生利润的期望值为决策依据、如果你是该公司的负责人,你会选择采购哪款车型?
参考数据:
,
,
参考公式:
相关系数;
回归直线方程为,其中
,
4.(2020·全国高三专题练习)近年来,“双11”网购的观念逐渐深入人心.某人统计了近年某网站“双11”当天的交易额,,统计结果如下表:
年份
2015
2016
2017
2018
2019
年份代码x
1
2
3
4
5
交易额y/百亿元
9
12
17
21
26
(1)请根据上表提供的数据,用相关系数说明与的线性相关程度,线性相关系数保留三位小数.(统计中用相关系数来衡量两个变量之间线性关系的强弱.若相应于变量的取值,变量的观测值为(),则两个变量的相关系数的计算公式为:
.统计学认为,对于变量
,如果
,那么负相关很强;如果
,那么正相关很强;如果
或
,那么相关性一般;如果
,那么相关性较弱);
(2)求出关于x的线性回归方程,并预测年该网站“双11”当天的交易额.
参考公式:
,;参考数据:
.
考向二独立性检验
【例2】(2021·江苏泰州市·高三期末)2020年是脱贫攻坚的收官之年,国务院扶贫办确定的贫困县全部脱贫摘帽,脱贫攻坚取得重大胜利,为确保我国如期全面建成小康社会,实现第一个百年奋斗目标打下了坚实的基础在产业扶贫政策的大力支持下,西部某县新建了甲、乙两家玩具加工厂,加工同一型号的玩具质监部门随机抽检了两个厂的各100件玩具,在抽取中的200件玩具中,根据检测结果将它们分成“A”、“B”、“C”三个等级,A、B等级都是合格品,C等级是次品,统计结果如下表所示:
等级
A
B
C
频数
20
120
60
(表一)
厂家
合格品
次品
合计
甲
75
乙
35
合计
(表二)
在相关政策扶持下,确保每件合格品都有对口销售渠道,但从安全起见,所有的次品必须由原厂家自行销.
(1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有95%的把握认为产品的合格率与厂家有关?
(2)每件玩具的生产成本为30元,A、B等级产品的出厂单价分别为60元、40元.另外已知每件次品的销毁费用为4元.若甲厂抽检的玩具中有10件为A等级,用样本的频率估计概率,试判断甲、乙两厂能否都能盈利,并说明理由.
附:
,其中
.
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【举一反三】
1.(2021·山东高三专题练习)共享单车进驻城市,绿色出行引领时尚.某市有统计数据显示,2020年该市共享单车用户年龄等级分布如图1所示,一周内市民使用单车的频率分布扇形图如图2所示.若将共享单车用户按照年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用单车用户”,使用次数为5次或不足5次的称为“不常使用单车用户”.已知在“经常使用单车用户”中有是“年轻人”.
(1)现对该市市民进行“经常使用共享单车与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,补全下列列联表,并根据列联表的独立性检验,判断是否有85%的把握认为经常使用共享单车与年龄有关?
年轻人
非年轻人
合计
经常使用单车用户
120
不常使用单车用户
80
合计
160
40
200
(2)将
(1)中频率视为概率,若从该市市民中随机任取3人,设其中经常使用共享单车的“非年轻人”人数为随机变量,求的分布列与期望.
参考数据:
独立性检验界值表
0.15
0.10
0.050
0.025
0.010
2.072
2.706
3.841
5.024
6.635
其中,,
【举一反三】
1.(2021·全国高三专题练习)某工厂为了提高生产效率,对生产设备进行了技术改造,为了对比技术改造后的效果,采集了技术改造前后各20次连续正常运行的时间长度(单位:
天)数据,整理如下:
改造前:
19,31,22,26,34,15,22,25,40,35,18,16,28,23,34,15,26,20,24,21
改造后:
32,29,41,18,26,33,42,34,37,39,33,22,42,35,43,27,41,37,38,36
(1)完成下面的列联表,并判断能否有99%的把握认为技术改造前后的连续正常运行时间有差异?
超过30
不超过30
改造前
改造后
(2)工厂的生产设备的运行需要进行维护,工厂对生产设备的生产维护费用包括正常维护费,保障维护费两种.对生产设备设定维护周期为T天(即从开工运行到第kT天,k∈N*)进行维护.生产设备在一个生产周期内设置几个维护周期,每个维护周期相互独立.在一个维护周期内,若生产设备能连续运行,则只产生一次正常维护费,而不会产生保障维护费;若生产设备不能连续运行,则除产生一次正常维护费外,还产生保障维护费.经测算,正常维护费为0.5万元/次;保障维护费第一次为0.2万元/周期,此后每增加一次则保障维护费增加0.2万元.现制定生产设备一个生产周期(以120天计)内的维护方案:
T=30,k=1,2,3,4.以生产设备在技术改造后一个维护周期内能连续正常运行的频率作为概率,求一个生产周期内生产维护费的分布列及均值.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
2.(2020·四川成都市·高三一模)一网络公司为某贫困山区培养了名“乡土直播员”,以帮助宣传该山区文化和销售该山区的农副产品,从而带领山区人民早日脱贫致富.该公司将这名“乡土直播员”中每天直播时间不少于小时的评为“网红乡土直播员”,其余的评为“乡土直播达人”.根据实际评选结果得到了下面列联表:
网红乡土直播员
乡土直播达人
合计
男
10
40
50
女
20
30
50
合计
30
70
100
(1)根据列联表判断是否有的把握认为“网红乡土直播员”与性别有关系?
(2)在“网红乡土直播员”中按分层抽样的方法抽取人,在这人中选人作为“乡土直播推广大使”.设被选中的名“乡土直播推广大使”中男性人数为,求的分布列和期望.
附:
,其中
.
考向三非一次性回归方程
【例3-1】(2021·全国高三专题练习)在一项调查中有两个变量和,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为关于的回归方程的函数类型是()
A.B.
C.D.()
【例3-2】.(2020·全国高三专题练习)根据公安部交管局下发的通知,自2020年6月1日起,将在全国开展“一盔一带”安全守护行动,其中就要求骑行摩托车、电动车需要佩戴头盔,为的就是让大家重视交通安全.某地交警部门根据某十字路口的监测数据,从穿越该路口的骑行者中随机抽查了200人,得到如图所示的列联表:
戴头盔
不带头盔
合计
男性
30
90
120
女性
10
70
80
合计
40
160
200
(1)是否有97.5%的把握认为自觉带头盔行为与性别有关?
(2)通过一定的宣传和相关处罚措施出台后,交警在一段时间内通过对某路口不带头盔的骑行者统计,得到上面的散点图和如下数据:
天数
1
2
3
4
5
6
人数
110
60
44
34
30
28
观察散点图,发现两个变量不具有线性相关关系,现考虑用函数对两个变量的关系进行拟合,通过分析得y与有一定的线性相关关系,并得到以下参考数据(其中):
3.5
0.41
12.25
0.1681
91
1.492
816
173.8
306
请选择合适的参考数据,求出y关于x的回归方程.
参考公式:
.
0.050
0.025
0.010
0.005
0.001
k
3.841
5.024
6.635
7.879
10.828
对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为:
,.
【举一反三】
1.(2020·河南周口市·高三月考)已知变量关于变量的回归方程为,其一组数据如下表所示:
1
2
3
4
若,则()
A.5B.6C.7D.8
2.(2021·全国高三专题练习)近期,济南公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用表示活动推出的天数,表示每天使用扫码支付的人次(单位:
十人次),统计数据如表所示:
表:
根据以上数据,绘制了散点图.
1
2
3
4
5
6
7
6
11
21
34
66
101
196
(1)根据散点图判断,在推广期内与(,均为大于零的常数)哪一个适宜作为扫码支付的人次关于活动推出天数的回归方程类型?
(给出判断,不必说明理由);
(2)根据
(1)的判断结果及表中的数据,建立关于的回归方程,并预测活动推出第8天使用扫码支付的人次;
(3)推广期结束后,车队对乘客的支付方式进行统计,结果如下表:
支付方式
现金
乘车卡
扫码
比例
10%
60%
30%
车队为缓解周边居民出行压力,以80万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客中有的概率享受7折优惠,有的概率享受8折优惠,有的概率享受9折优惠,预计该车队每辆车每个月有1万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其它因素的条件下,按照上述收费标准,假设这批车需要年才能开始盈利,求的值.
参考数据:
其中,
参考公式:
对于一组数据,,…,,其回归直线
的斜率和截距的最小二乘估计公式分别为:
,.
66
1.54
2.711
50.12
3.47
3.(2021·全国高三专题练习)某公司研发了一种帮助家长解决孩子早教问题的萌宠机器人.萌宠机器人语音功能让它就像孩子的小伙伴一样和孩子交流,记忆功能还可以记住宝宝的使用习惯,很快找到宝宝想听的内容.同时提供快乐儿歌、国学经典、启蒙英语等早期教育内容,且云端内容可以持续更新.萌宠机器人一投放市场就受到了很多家长欢迎.为了更好地服务广大家长,该公司研究部门从流水线上随机抽取100件萌宠机器人(以下简称产品),统计其性能指数并绘制频率分布直方图(如图1):
产品的性能指数在的适合托班幼儿使用(简称A类产品),在的适合小班和中班幼儿使用(简称B类产品),在
的适合大班幼儿使用(简称C类产品),A,B,C,三类产品的销售利润分别为每件1.5,3.5,5.5(单位:
元).以这100件产品的性能指数位于各区间的频率代替产品的性能指数位于该区间的概率.
(1)求每件产品的平均销售利润;
(2)该公司为了解年营销费用(单位:
万元)对年销售量(单位:
万件)的影响,对近5年的年营销费用,和年销售量
数据做了初步处理,得到的散点图(如图2)及一些统计量的值.
16.30
24.87
0.41
1.64
表中,,,.
根据散点图判断,可以作为年销售量(万件)关于年营销费用(万元)的回归方程.
(i)建立关于的回归方程;
(ii)用所求的回归方程估计该公司应投入多少营销费,才能使得该产品一年的收益达到最大?
(收益=销售利润-营销费用,取).
参考公式:
对于一组数据
,其回归直线的斜率和截距的最小二乘估计分别为,.
1.(2021·全国高三专题练习)给出下列说法:
①回归直线恒过样本点的中心,且至少过一个样本点;
②两个变量相关性越强,则相关系数就越接近1;
③将一组数据的每个数据都加一个相同的常数后,方差不变;
④在回归直线方程
中,当解释变量增加一个单位时,预报变量平均减少0.5个单位.
其中说法正确的是()
A.①②④B.②③④C.①③④D.②④
2.(2020·全国高三专题练习)对两个变量、进行线性相关检验,得线性相关系数
,对两个变量、进行线性相关检验,得线性相关系数
,则下列判断正确的是()
A.变量与正相关,变量与负相关,变量与的线性相关性较强
B.变量与负相关,变量与正相关,变量与的线性相关性较强
C.变量与正相关,变量与负相关,变量与的线性相关性较强
D.变量与负相关,变量与正相关,变量与的线性相关性较强
3.(2020·河南新乡市·高三一模)年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:
万元/平方米)的散点图.(图中月份代码分别对应年月
年月)
根据散点图选择和
两个模型进行拟合,经过数据处理得到的两个回归方程分别为
和
,并得到以下一些统计量的值:
注:
是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是()
A.当月在售二手房均价与月份代码呈正相关关系
B.根据
可以预测年月在售二手房均价约为
万元/平方米
C.曲线
与
的图形经过点
D.
回归曲线的拟合效果好于
的拟合效果
4.(2020·全国高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是()
A.
B.
C.
D.
5.(2020·邵阳市第二中学高三其他模拟(文))某种产品的广告费支出与销售额(单位:
万元)之间有如表关系,与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为()
2
4
5
6
8
30
40
60
50
70
A.10B.20C.30D.40
6.(2020·全国高三专题练习)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:
天数(天)
3
4
5
6
繁殖个数(千个)
2.5
3
4.5
由最小二乘法得与的线性回归方程为
,则当时,繁殖个数的预测值为()
A.4.9B.5.25
C.5.95D.6.15
7.(2020·全国高三专题练习)已知某种商品的广告费支出x(单位:
万元)与销售额y(单位:
万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
50
60
70
根据上表可得回归方程,计算得,则当投入10万元广告费时,销售额的预报值为
A.75万元B.85万元
C.99万元D.105万元
8.(2020·全国高三专题练习)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
由,得
.
参照下表,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
下列结论正确的是()
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
9.(2020·全国高三专题练习)为考察高中生的性别与是否喜欢数学课程之间的关系,利用2×2列联表进行检验,经计算K2的观测值k=7.069,参考下表,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过()
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
A.0.001B.0.01C.0.99D.0.999
10.(多选)(2021·全国高三专题练习)因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用封闭式管理,该校有在校学生9000人,其中男生4000人,女生5000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:
满意
不满意
男
20
20
女
40
10
附表:
P(K2≥k)
0.100
0.05
0.025
0.010
0.001
k
2.706
3.841
5.024
6.635
10.828
附:
以下说法正确的有()
A.满意度的调查过程采用了分层抽样的抽样方法
B.该学校学生对学校的管理和服务满意的概率的估计值为0.6