18版高中数学第一章统计案例1.1回归分析的基本思想及其初步应用学案1-2.doc
《18版高中数学第一章统计案例1.1回归分析的基本思想及其初步应用学案1-2.doc》由会员分享,可在线阅读,更多相关《18版高中数学第一章统计案例1.1回归分析的基本思想及其初步应用学案1-2.doc(17页珍藏版)》请在冰点文库上搜索。
![18版高中数学第一章统计案例1.1回归分析的基本思想及其初步应用学案1-2.doc](https://file1.bingdoc.com/fileroot1/2023-7/8/ab98d706-e0d6-46ac-b092-110267a14987/ab98d706-e0d6-46ac-b092-110267a149871.gif)
。
。
内部文件,版权追溯
内部文件,版权追溯
内部文件,版权追溯
1.1 回归分析的基本思想及其初步应用
1.了解回归分析的思想和方法.(重点)
2.掌握相关系数的计算和判断线性相关的方法.(重点)
3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)
[基础·初探]
教材整理1 线性回归模型
阅读教材P2~P4“探究”以上内容,完成下列问题.
1.在线性回归方程=+x中=,=-.其中=i,=i,(,)称为样本点的中心,回归直线过样本点的中心.
2.线性回归模型y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差.
3.随机误差产生的原因主要有以下几种:
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
设某大学的女生体重y(单位:
kg)与身高x(单位:
cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中正确的是________(填序号).
(1)y与x具有正的线性相关关系;
(2)回归直线过样本点的中心(,);
(3)若该大学某女生身高增加1cm,则其体重约增加0.85kg;
(4)若该大学某女生身高为170cm,则可断定其体重必为58.79kg.
【解析】 回归方程中x的系数为0.85>0,因此y与x具有正的线性相关关系,
(1)正确;
由回归方程系数的意义可知回归直线过样本点的中心(,),
(2)正确;
依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,(3)正确;
用回归方程对总体进行估计不能得到肯定结论,故(4)不正确.
【答案】
(1)
(2)(3)
教材整理2 刻画回归效果的方式
阅读教材P4“探究”以下至P6“例2”以上内容,完成下列问题.
残差
对于样本点(xi,yi)(i=1,2,…,n)的随机误差的估计值i=yi-i,称为相应于点(xi,yi)的残差
残差图
利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图
续表
残差
图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型的拟合精度越高
残差平
方和
残差平方和为,残差平方和越小,模型的拟合效果越好
相关指
数R2
R2=1-,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好
甲、乙、丙、丁4位同学各自对A、B两变量做回归分析,分别得到散点图与残差平方和(yi-i)2如表所示:
甲
乙
丙
丁
散点图
残差平方和
115
106
124
103
____(填“甲”“乙”“丙”“丁”)同学的试验结果体现拟合A、B两变量关系的模型拟合精度高.
【解析】 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2表达式中(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果就越好,由试验结果知丁要好些.
【答案】 丁
[小组合作型]
回归分析的有关概念
(1)有下列说法:
①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;
②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;
③通过回归方程=x+,可以估计和观测变量的取值和变化趋势;
④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.
其中正确命题的个数是( )
A.1 B.2
C.3 D.4
(2)如果某地的财政收入x与支出y满足线性回归方程=x++e(单位:
亿元),其中=0.8,=2,|e|≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.【导学号:
81092000】
【自主解答】
(1)①反映的是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程=x+的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系.
(2)由题意可得:
=0.8x+2+e,当x=10时,=0.8×10+2+e=10+e,又|e|≤0.5,∴9.5≤≤10.5.
故今年支出预计不会超过10.5亿.
【答案】
(1)C
(2)10.5
1.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.
2.由线性回归方程给出的是一个预报值而非精确值.
3.随机误差的主要来源
(1)线性回归模型与真实情况引起的误差;
(2)忽略了一些因素的影响产生的误差;
(3)观测与计算产生的误差.
4.残差分析是回归分析的一种方法.
[再练一题]
1.下列有关线性回归的说法,不正确的是________(填序号).
①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;
②在平面直角坐标系中用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;
③线性回归方程最能代表观测值x,y之间的关系;
④任何一组观测值都能得到具有代表意义的回归直线方程.
【解析】 只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程.
【答案】 ④
线性回归分析
为研究重量x(单位:
克)对弹簧长度y(单位:
厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x
5
10
15
20
25
30
y
7.25
8.12
8.95
9.90
10.9
11.8
(1)作出散点图并求线性回归方程;
(2)求出R2;
(3)进行残差分析.
【精彩点拨】 →→→
【自主解答】
(1)散点图如图.
=(5+10+15+20+25+30)=17.5,
=(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
=2275,iyi=1076.2,
计算得,≈0.183,≈6.285,
所求回归直线方程为=0.183x+6.285.
(2)列表如下:
yi-i
0.05
0.005
-0.08
-0.045
0.04
0.025
yi-
-2.24
-1.37
-0.54
0.41
1.41
2.31
所以(yi-i)2≈0.01318,(yi-)2=14.6784.
所以,R2=1-≈0.9991,
回归模型的拟合效果较好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力成线性关系.
“相关指数R2、残差图”在回归分析中的作用
1.相关指数R2是用来刻画回归效果的,由R2=1-可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
2.残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.
[再练一题]
2.已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
【导学号:
81092001】
【解】 =(14+16+18+20+22)=18,
=(12+10+7+5+3)=7.4,
=142+162+182+202+222=1660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以===-1.15.
=7.4+1.15×18=28.1,
所以所求回归直线方程是=-1.15x+28.1.
列出残差表:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
所以,(yi-i)2=0.3,(yi-)2=53.2,
R2=1-≈0.994,
所以回归模型的拟合效果很好.
[探究共研型]
非线性回归分析
探究1 在研究两个变量的相关关系时,观察散点图样本点集中于某一条指数曲线y=cax(a>0且a≠1,c>0,a,c为常数)的周围,如何进行适当变换化为线性关系?
【提示】 对y=cax两边取自然对数lny=ln(cax),
即lny=lnc+xlna,
令原方程变为y′=lnc+x′lna,
然后按线性回归模型求出lna,lnc即可.
探究2 已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?
x
1
2
3
y
3
5.99
12.01
①y=3×2x-1;②y=log2x;
③y=4x;④y=x2.
【提示】 观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.所以模拟效果最好的为①.
某地区不同身高的未成年男性的体重平均值如下表:
身高x(cm)
60
70
80
90
100
110
体重y(kg)
6.13
7.90
9.99
12.15
15.02
17.50
身高x(cm)
120
130
140
150
160
170
体重y(kg)
20.92
26.86
31.11
38.85
47.25
55.05
(1)试建立y与x之间的回归方程;
(2)如果一名在校男生身高为168cm,预测他的体重约为多少?
【精彩点拨】 先由散点图确定相应的拟合模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.
【自主解答】
(1)根据表中的数据画出散点图,如下:
由图看出,这些点分布在某条指数型函数曲线y=c1ec2x的周围,于是令z=lny,列表如下:
x
60
70
80
90
100
110
z
1.81
2.07
2.30
2.50
2.71
2.86
x
120
130
140
150
160
170
z
3.04
3.29
3.44
3.66
3.86
4.01
作出散点图,如下:
由表中数据可求得z与x之间的回归直线方程为=0.693+0.020x,则有=e0.693+0.020x.
(2)由
(1)知,当x=168时,=e0.693+0.020×168≈57.57,所以在校男生身高为168cm,预测他的体重约为57.57kg.
两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1ec2x,我们可以通过对数变换把指数关系变为线性关系,令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围.
[再练一题]
3.在一次抽样调查中测得样本的5个样本点,数据如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
【解】 作出变量y与x之间的散点图如图所示.
由图可知变量y与x近似地呈反比例函数关系.
设y=,令t=,则y=kt.由y与x的数据表可得y与t的数据表:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
作出y与t的散点图如图所示.
由图可知y与t呈近似的线性相关关系.
又=1.55,=7.2,iyi=94.25,=21.3125,
==≈4.1344,
=-=7.2-4.1344×1.55≈0.8,
∴=4.1344t+0.8.
所以y与x的回归方程是=+0.8.
1.下列结论正确的是( )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③
C.①②④ D.①②③④
【解析】 函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.
【答案】 C
2.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点( )
x
1
2
3
4
y
1
3
5
7
A.(2,3) B.(1.5,4)
C.(2.5,4) D.(2.5,5)
【解析】 线性回归方程必过样本点的中心(,),
即(2.5,4),故选C.
【答案】 C
3.在两个变量y与x的回归模型中,分别选择了4个不同的模型.它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
【解析】 相关指数R2越接近于1,则该模型的拟合效果就越好,精度越高.
【答案】 A
4.对具有线性相关关系的变量x和y,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
【导学号:
81092002】
【解析】 由题意知=2,=3,=6.5,所以=-=3-6.5×2=-10,即回归直线的方程为=-10+6.5x.
【答案】 =-10+6.5x
5.某零售店近五个月的销售额和利润额资料如下表:
月份
A
B
C
D
E
销售额x(千万元)
3
5
6
7
9
利润额y(百万元)
2
3
3
4
5
(1)画出散点图.观察散点图,说明两个变量有怎样的相关关系;
(2)用最小二乘法求利润额y关于销售额x的线性回归方程;
(3)当销售额为4(千万元)时,利用
(2)的结论估计该零售店的利润额(百万元).
【解】
(1)散点图如下.
两个变量呈正线性相关关系.
(2)设线性回归方程是=x+.
由题中的数据可知=3.4,=6.
所以=
=
==.
=-=3.4-×6=0.4.
所以利润额y关于销售额x的线性回归方程为=0.5x+0.4.
(3)由
(2)知,当x=4时,=0.5×4+0.4=2.4,
所以当销售额为4千万元时,可以估计该店的利润额为2.4百万元.
学业分层测评
(建议用时:
45分钟)
[学业达标]
一、选择题
1.在画两个变量的散点图时,下面叙述正确的是( )
A.预报变量在x轴上,解释变量在y轴上
B.解释变量在x轴上,预报变量在y轴上
C.可以选择两个变量中任意一个变量在x轴上
D.可以选择两个变量中任意一个变量在y轴上
【解析】 结合线性回归模型y=bx+a+e可知,解释变量在x轴上,预报变量在y轴上,故选B.
【答案】 B
2.在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
【解析】 ∵R2=1-,∴当R2越大时,
(yi-i)2越小,即残差平方和越小,故选B.
【答案】 B
3.已知x和y之间的一组数据
x
0
1
2
3
y
1
3
5
7
则y与x的线性回归方程=x+必过点( )
A.(2,2) B.
C.(1,2) D.
【解析】 ∵=(0+1+2+3)=,=(1+3+5+7)=4,
∴回归方程=x+必过点.
【答案】 D
4.已知人的年龄x与人体脂肪含量的百分数y的回归方程为=0.577x-0.448,如果某人36岁,那么这个人的脂肪含量( )【导学号:
81092003】
A.一定是20.3%
B.在20.3%附近的可能性比较大
C.无任何参考数据
D.以上解释都无道理
【解析】 将x=36代入回归方程得=0.577×36-0.448≈20.3.由回归分析的意义知,这个人的脂肪含量在20.3%附近的可能性较大,故选B.
【答案】 B
5.若一函数模型为y=ax2+bx+c(a≠0),为将y转化为t的线性回归方程,则需作变换t=( )
A.x2 B.(x+a)2
C.2 D.以上都不对
【解析】 y关于t的线性回归方程,实际上就是y关于t的一次函数,又因为y=a2+,所以可知选项C正确.
【答案】 C
二、填空题
6.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
【解析】 根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.
【答案】 1
7.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.
【解析】 把x=160代入=0.85x-82.71,
得=0.85×160-82.71=53.29,
所以残差=y-=53-53.29=-0.29.
【答案】 -0.29
8.调查了某地若干户家庭的年收入x(单位:
万元)和年饮食支出y(单位:
万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:
=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
【解析】 以x+1代x,得=0.254(x+1)+0.321,与=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.
【答案】 0.254
三、解答题
9.关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
如由资料可知y对x呈线性相关关系.试求:
(1)线性回归方程:
(2)估计使用年限为10年时,维修费用是多少?
【解】
(1)==4,
==5,
=90,iyi=112.3,
===1.23.
于是=-=5-1.23×4=0.08.
所以线性回归方程为=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38(万元),
即估计使用10年时维修费用是12.38万元.
10.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
为了对x,y两个变量进行统计分析,现有以下两种线性模型:
甲模型=6.5x+17.5,乙模型=7x+17,试比较哪一个模型拟合的效果更好.
【解】 R=1-=1-=0.845,
R=1-=1-=0.82,
因为84.5%>82%,所以甲模型拟合效果更好.
[能力提升]
1.某学生四次模拟考试时,其英语作文的减分情况如下表:
考试次数x
1
2
3
4
所减分数y
4.5
4
3
2.5
显然所减分数y与模拟考试次数x之间有较好的线性相关关系,则其线性回归方程为( )
A.y=0.7x+5.25 B.y=-0.6x+5.25
C.y=-0.7x+6.25 D.y=-0.7x+5.25
【解析】 由题意可知,所减分数y与模拟考试次数x之间为负相关,所以排除A.考试次数的平均数为=×(1+2+3+4)=2.5,所减分数的平均数为=×(4.5+4+3+2.5)=3.5.即直线应该过点(2.5,3.5),代入验证可知直线y=-0.7x+5.25成立,选D.
【答案】 D
2.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是
( )
A.>b′,>a′ B.>b′,C.a′ D.
【解析】 根据所给数据求出直线方程y=b′x+a′和回归直线方程的系数,并比较大小.
由(1,0),(2,2)求b′,a′.
b′==2,
a′=0-2×1=-2.
求,时,
iyi=0+4+3+12+15+24=58,
=3.5,=,
=1+4+9+16+25+36=91,
∴==,
=-×3.5=-=-,
∴a′.
【答案】 C
3.已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且线性回归方程为y=0.95x+2.6,那么表格中的数据m的值为________.
x
0
1
3
4
y
2.2
4.3
4.8
m
【解析】 ==2,==,把(,)代入回归方程得=0.95×2+2.6,解得m=6.7.
【答案】 6.7
4.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽y(颗)
23
25
30
26
16
该农科所确定的研究方案是:
先从这5组数据中选取3组数据求线性回归方程,剩下的2组数据用于回归方程检验.
(1)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程=x+;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问
(1)中所得的线性回归方程是否可靠?
(3)请预测温差为14℃的发芽数.
【解】
(1)由数据求得,=12,=27,
=434,iyi=977.
由公式求得,=,=-=-3.
所以y关于x的线性回归方程为=x-3.
(2)当x=10时,=×10-3=22,|22-23|<2;
当x=8时,=×8-3=17,|17-16|<2.
所以该研究所得到的线性回归方程是可靠的.
(3)当x=14时,有=×14-3=35-3=32,
所以当温差为14℃时的发芽数约为32颗.
17