参考高中数学第1章统计案例章末分层突破学案1.docx
《参考高中数学第1章统计案例章末分层突破学案1.docx》由会员分享,可在线阅读,更多相关《参考高中数学第1章统计案例章末分层突破学案1.docx(20页珍藏版)》请在冰点文库上搜索。
![参考高中数学第1章统计案例章末分层突破学案1.docx](https://file1.bingdoc.com/fileroot1/2023-5/15/61b81a3e-b725-45b2-b7bc-912efc492dab/61b81a3e-b725-45b2-b7bc-912efc492dab1.gif)
参考高中数学第1章统计案例章末分层突破学案1
(参考)2019年高中数学第1章统计案例章末分层突破学案1
[自我校对]
①回归分析
②相互独立事件的概率
③χ2公式
④判断两变量的线性相关
回归分析问题
建立回归模型的步骤:
(1)确定研究对象,明确变量x,y.
(2)画出变量的散点图,观察它们之间的关系(如是否存在线性相关关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性相关关系,则选用回归直线方程=x+).
(4)按一定规则估计回归方程中的参数(如最小二乘法).
(5)得出回归方程.
另外,回归直线方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归直线方程的适用范围,否则没有实用价值.
假设一个人从出生到死亡,在每个生日那天都测量身高,并作出这些数据散点图,则这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析.下表是一位母亲给儿子作的成长记录:
年龄/周岁
3
4
5
6
7
8
9
身高/cm
90.8
97.6
104.2
110.9
115.7
122.0
128.5
年龄/周岁
10
11
12
13
14
15
16
身高/cm
134.2
140.8
147.6
154.2
160.9
167.6
173.0
(1)作出这些数据的散点图;
(2)求出这些数据的线性回归方程;
(3)对于这个例子,你如何解释回归系数的含义?
(4)解释一下回归系数与每年平均增长的身高之间的联系.
【精彩点拨】
(1)作出散点图,确定两个变量是否线性相关;
(2)求出a,b,写出线性回归方程;
(3)回归系数即b的值,是一个单位变化量;
(4)根据线性回归方程可找出其规律.
【规范解答】
(1)数据的散点图如下:
(2)用y表示身高,x表示年龄,
因为=×(3+4+5+…+16)=9.5,
=×(90.8+97.6+…+173.0)=132,
=≈≈6.316,
=-b=71.998,
所以数据的线性回归方程为y=6.316x+71.998.
(3)在该例中,回归系数6.316表示该人在一年中增加的高度.
(4)回归系数与每年平均增长的身高之间近似相等.
[再练一题]
1.假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗.
【导学号:
37820006】
【解】
(1)散点图如下.
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系.
设回归方程为=x+,=30.36,=43.5,
故所求的线性回归方程为=34.70+0.29x.
当x=56.7时,=34.70+0.29×56.7=51.143.
估计成熟期有效穗约为51.143.
独立性检验
独立性检验的基本思想类似于反证法,要确认两个分类变量有关系这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下,我们构造的随机变量χ2应该很小,如果由观测数据计算得到的χ2的观测值很大,则在一定程度上说明假设不合理,根据随机变量χ2的含义,可以通过P(χ2>6.635)≈0.01来评价假设不合理的程度,由实际计算出χ2>6.635说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.
独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=计算χ2的值.
(3)比较χ2与临界值的大小关系并作统计推断.
在某校高三年级一次全年级的大型考试中数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀与物理、化学、总分也优秀哪个关系较大?
物理
化学
总分
数学优秀
228
225
267
数学非优秀
143
156
99
注:
该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.
【精彩点拨】 分别列出数学与物理,数学与化学,数学与总分优秀的2×2列联表,求k的值.由观测值分析,得出结论.
【规范解答】
(1)列出数学与物理优秀的2×2列联表如下:
物理优秀
物理非优秀
合计
数学优秀
228
132
360
数学非优秀
143
737
880
合计
371
869
1240
n11=228,n12=132,n21=143,n22=737,
n1+=360,n2+=880,n+1=371,n+2=869,n=1240.
代入公式χ2=
得χ=≈270.1143.
(2)列出数学与化学优秀的2×2列联表如下:
化学优秀
化学非优秀
合计
数学优秀
225
135
360
数学非优秀
156
724
880
合计
381
859
1240
n11=225,n12=135,n21=156,n22=724,
n1+=360,n2+=880,n+1=381,n+2=859,n=1240.
代入公式,得χ=≈240.6112.
(3)列出数学与总分优秀的2×2列联表如下:
总分优秀
总分非优秀
合计
数学优秀
267
93
360
数学非优秀
99
781
880
合计
366
874
1240
n11=267,n12=93,n21=99,n22=781,
n1+=360,n2+=880,n+1=366,n+2=874,n=1240.
代入公式,得χ=≈486.1225.
由上面计算可知数学成绩优秀与物理、化学、总分优秀都有关系,由计算分别得到χ2的统计量都大于临界值6.635,由此说明有99%的把握认为数学优秀与物理、化学、总分优秀都有关系,但与总分优秀关系最大,与物理次之.
[再练一题]
2.某推销商为某保健药品做广告,在广告中宣传:
“在服用该药品的105人中有100人未患A疾病”.经调查发现,在不服用该药品的418人中仅有18人患A疾病.请用所学知识分析该药品对预防A疾病是否有效.
【解】 将问题中的数据写成如下2×2列联表:
患A疾病
不患A疾病
合计
服用该药品
5
100
105
不服用该药品
18
400
418
合计
23
500
523
将上述数据代入公式χ2=中,计算可得χ2≈0.0414,因为0.0414<3.841,故没有充分理由认为该保健药品对预防A疾病有效.
转化与化归思想在回归分析中的应用
回归分析是对抽取的样本进行分析,确定两个变量的相关关系,并用一个变量的变化去推测另一个变量的变化.如果两个变量非线性相关,我们可以通过对变量进行变换,转化为线性相关问题.
某商店各个时期的商品流通率y(%)的商品零售额x(万元)资料如下:
x
9.5
11.5
13.5
15.5
17.5
y
6
4.6
4
3.2
2.8
x
19.5
21.5
23.5
25.5
27.5
y
2.5
2.4
2.3
2.2
2.1
散点图显示出x与y的变动关系为一条递减的曲线.经济理论和实际经验都证明,流通率y决定于商品的零售额x,体现着经营规模效益,假定它们之间存在关系式:
y=a+.试根据上表数据,求出a与b的估计值,并估计商品零售额为30万元的商品流通率.
【规范解答】 设u=,则y=a+bu,得下表数据:
u
0.1053
0.0870
0.0741
0.0645
0.0571
y
6
4.6
4
3.2
2.8
u
0.0513
0.0465
0.0426
0.0392
0.0364
y
2.5
2.4
2.3
2.2
2.1
由表中数据可得y与u之间的回归直线方程为
=-0.1875+56.25u.
所以所求的回归方程为=-0.1875+.当x=30时,y=1.6875,即商品零售额为30万元时,商品流通率为1.6875%.
[再练一题]
3.在某化学实验中,测得如下表所示的6对数据,其中x(单位:
min)表示化学反应进行的时间,y(单位:
mg)表示未转化物质的质量.
x/min
1
2
3
4
5
6
y/mg
39.8
32.2
25.4
20.3
16.2
13.3
(1)设y与x之间具有关系y=cdx,试根据测量数据估计c和d的值(精确到0.001);
(2)估计化学反应进行到10min时未转化物质的质量(精确到0.1).
【解】
(1)在y=cdx两边取自然对数,令lny=z,lnc=a,lnd=b,则z=a+bx.由已知数据,得
x
1
2
3
4
5
6
y
39.8
32.2
25.4
20.3
16.2
13.3
z
3.684
3.472
3.235
3.011
2.785
2.588
由公式得≈3.9055,≈-0.2219,则线性回归方程为=3.9055-0.2219x.而lnc=3.9055,lnd=-0.2219,
故c≈49.675,d≈0.801,
所以c,d的估计值分别为49.675,0.801.
(2)当x=10时,由
(1)所得公式可得y≈5.4(mg).
所以化学反应进行到10min时未转化物质的质量约为5.4mg.
1.(2015·福建高考)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元B.11.8万元
C.12.0万元D.12.2万元
【解析】 由题意知,==10,
==8,
∴=8-0.76×10=0.4,
∴当x=15时,=0.76×15+0.4=11.8(万元).
【答案】 B
2.(2014·湖北高考)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则( )
A.a>0,b>0B.a>0,b<0
C.a<0,b>0D.a<0,b<0
【解析】 作出散点图如下:
观察图象可知,回归直线=bx+a的斜率b<0,当x=0时,=a>0.故a>0,b<0.
【答案】 B
3.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:
万吨)柱形图,以下结论中不正确的是( )
图11
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
【解析】 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.
【答案】 D
4.(2016·全国卷Ⅲ)如图12是我国2008年至2014年生活垃圾无害化处理量(单位:
亿吨)的折线图.
图12
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:
yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:
相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
【解】
(1)由折线图中的数据和附注中的参考数据得
t=4,(ti-t)2=28,=0.55,
=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及
(1)得
==≈0.103.
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
5.(2014·全国卷Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y(单位:
千元)的数据如下表:
年 份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用
(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:
回归直线的斜率和截距的最小二乘估计公式分别为:
=,=-.
【解】
(1)由所给数据计算得=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=-=4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由
(1)知,=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入
(1)中的回归方程,得
=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
章末综合测评
(一) 统计案例
(时间120分钟,满分150分)
一、选择题(本大题共12小题,每小题5分,共60分.在每小题给出的四个选项中,只有一项是符合题目要求的.)
1.在对两个变量x,y进行线性回归分析时有下列步骤:
①对所求出的回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图.
如果变量x,y具有线性相关关系,则在下列操作顺序中正确的是( )
A.①②⑤③④B.③②④⑤①
C.②④③①⑤D.②⑤④③①
【解析】 根据线性回归分析的思想,可知对两个变量x,y进行线性回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求相关系数和线性回归方程,最后对所求的回归方程作出解释,因此选D.
【答案】 D
2.下列说法错误的是( )
A.当变量之间的相关关系不是线性相关关系时,也能直接用线性回归方程描述它们之间的相关关系
B.把非线性回归化线性回归为我们解决问题提供一种方法
C.当变量之间的相关关系不是线性相关关系时,也能描述变量之间的相关关系
D.当变量之间的相关关系不是线性相关关系时,可以通过适当的变换使其转换为线性关系,将问题化为线性回归分析问题来解决
【解析】 此题考查解决线性相关问题的基本思路.
【答案】 A
3.打靶时,甲每打10次可中靶8次,乙每打10次可中靶7次,若两人同时射击一目标,则他们都中靶的概率是( )
A.B.C. D.
【解析】 设“甲命中目标”为事件A,“乙命中目标”为事件B,依题意知,P(A)==,P(B)=,且A与B相互独立.
故他们都命中目标的概率为P(AB)=P(A)·P(B)=.
【答案】 A
4.班级与成绩2×2列联表:
优秀
不优秀
合计
甲班
10
35
45
乙班
7
38
p
合计
m
n
q
表中数据m,n,p,q的值应分别为( )
A.70,73,45,188B.17,73,45,90
C.73,17,45,90D.17,73,45,45
【解析】 m=7+10=17,n=35+38=73,
p=7+38=45,q=m+n=90.
【答案】 B
5.在线性回归模型y=bx+a+ε中,下列说法正确的是( )
A.y=bx+a+ε是一次函数
B.因变量y是由自变量x唯一确定的
C.因变量y除了受自变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差ε的产生
D.随机误差ε是由于计算不准确造成的,可以通过精确计算避免随机误差ε的产生
【解析】 线性回归模型y=bx+a+ε,反映了变量x,y间的一种线性关系,预报变量y除受解释变量x影响外,还受其他因素的影响,用ε来表示,故C正确.
【答案】 C
6.下表给出5组数据(x,y),为选出4组数据使线性相关程度最大,且保留第1组数据(-5,-3),则应去掉( )
i
1
2
3
4
5
xi
-5
-4
-3
-2
4
yi
-3
-2
4
-1
6
A.第2组B.第3组
C.第4组D.第5组
【解析】 通过散点图选择,画出散点图如图所示:
应除去第三组,对应点是(-3,4).故选B.
【答案】 B
7.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体内脂肪含量都为20.90%
B.年龄为37岁的人体内脂肪含量为21.01%
C.年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%
D.年龄为37岁的人群中的大部分人的体内脂肪含量为21.01%
【解析】 当x=37时,=20.90%,即对于年龄为37岁的人来说,大部分人的体内脂肪含量为20.90%.
【答案】 C
8.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( )
【导学号:
37820007】
A.=1.23x+4B.=1.23x+5
C.=1.23x+0.08D.=0.08x+1.23
【解析】 由题意可设回归直线方程为=1.23x+a,
又样本点的中心(4,5)在回归直线上,
故5=1.23×4+a,即a=0.08,
故回归直线的方程为=1.23x+0.08.
【答案】 C
9.工人月工资y(元)随劳动生产率x(千元)变化的回归方程为=50+80x,下列判断错误的是( )
A.劳动生产率为1000元时,工资约为130元
B.劳动生产率提高1000元时,工资提高80元
C.劳动生产率提高1000元时,工资提高130元
D.当月工资约为210元时,劳动生产率为2000元
【解析】 此回归方程的实际意义是劳动生产率为x(千元)时,工人月工资约为y(元),其中x的系数80的代数意义是劳动生产率每提高1(千元)时,工人月工资约增加80(元),故C错误.
【答案】 C
10.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表:
晚上
白天
合计
男婴
24
31
55
女婴
8
26
34
合计
32
57
89
你认为婴儿的性别与出生时间有关系的把握为( )
A.95% B.99%
C.95%~99%D.<95%
【解析】 由于χ2=≈3.689<3.841,所以认为婴儿的性别与出生时间有关系的把握小于95%.
【答案】 D
11.(2014·江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩B.视力
C.智商D.阅读量
【解析】 A中,χ2==.
B中,χ2==.
C中,χ2==.
D中,χ2==.
∵<<<,
∴与性别有关联的可能性最大的变量是阅读量.
【答案】 D
12.为预测某种产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取了8组观察值.计算知,则y对x的回归方程是( )
A.=11.47+2.62xB.=-11.47+2.62x
C.=2.62+11.47xD.=11.47-2.62x
【解析】 由已知数据计算可得=2.62,=11.47,所以回归方程是=11.47+2.62x,故选A.
【答案】 A
二、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)
13.关于统计量χ2的判断中,有以下几种说法:
①χ2在任何问题中都可以用来检验两个变量有关还是无关;
②χ2的值越大,两个分类变量的相关性就越大;
③χ2是用来判断两个分类变量是否有关系的随机变量,当χ2的值很小时可以判定两个分类变量不相关.
其中说法正确的是________.
【解析】 χ2只适用于2×2列联表问题,故①错误.χ2只能判断两个分类变量相关,故②正确.可能性大小不能判断两个分类变量不相关的程度大小,故③错误.
【答案】 ②
14.给出下列实际问题:
①一种药物对某种病的治愈率;
②两种药物治疗同一种病是否有关系;
③吸烟者得肺病的概率;
④吸烟人群是否与性别有关系;
⑤上网与青少年的犯罪率是否有关系.
其中,用独立性检验可以解决的问题有________.
【解析】 独立性检验主要是对两个分类变量是否有关系进行