正态分布和线性回归.docx
《正态分布和线性回归.docx》由会员分享,可在线阅读,更多相关《正态分布和线性回归.docx(12页珍藏版)》请在冰点文库上搜索。
正态分布和线性回归
专题:
正态分布和线性回归
一、基础知识回顾
1(X)2
1.正态分布:
若总体密度曲线就是或近似地是函数f(x),的图象
42
其中:
n是圆周率;e是自然对数的底;x是随机变量的取值,为正态分布的平均值;是正态分布的标准差•这个总体是无限容量的抽样总体,其分布叫做正态分布•正态分布由参数,唯一确定,记作~N(,2),E()=,D()=2.
2.函数f(x)图象被称为正态曲线.
(1)从形态上看,正态分布是一条单峰、对称呈钟形的曲线,其对称轴为x=也并在x=卩时取
最大值。
⑵从x=卩点开始,曲线向正负两个方向递减延伸,不断逼近x轴,但永不与x轴相交,因此说曲线在正负两个方向都是以x轴为渐近线的,(3)当卩的值一定时C越大曲线越“矮胖”总体分布越分散;c越小,曲线越“高”总体分布越集中.
3.
把~N(0,1)即(i=0,o=1称为标准正态分布,这样的正态总体称为标准正态总体,其密度函
的概率.
(1)对于标准正态总体N(0,1),(X。
)是总体取值小于X。
的概率,即:
(X。
)P(xX。
),其中Xo0,其值可以通过“标准正态分布表”查得,也就是图中阴影部分的面积,它表示总体取值小于X0的概率.
(2)标准正态曲线关于y轴对称。
因为当X00时,(x°)P(xX0);
而当X00时,根据正态曲线的性质可得:
(X°)1(X0),并且可以求得在任一区「间1,X2)内
取值的概率P(X1XX2)(X2)(X1),显然①(0)=0.5.
5.
使之标准化~N(0,1),那么,
对于任一正态总体~N(,2),都可以通过
YV
P(x)=P(<——)=(——),求得其在某一区间内取值的概率•
1
例如:
~N(1,4),那么设=〒,则~N(0,1),有P(<3)=P(<1)=
(1)=0.8413.
6.
①
(1)=0.8413、①
(2)=0.9772、①(3)=0.9987
f(x).—e
V2
(2)利用指数函数性质说明其单调区间,以及曲线的对称轴.
3.利用标准正态分布表(①
(1)=0.8413、①
(2)=0.9772、①(3)=0.9987)求标准正态总体在下面
区间取值的概率.
(1)(0,1);
(2)(1,3);
(3)(-1,2).
4.利用标准正态分布表((①
(1)=0.8413、①(1.84)=0.9671),求正态总体在下面区间取值的概率.
(1)在N(1,4)下,求F(3)
(2)在N(,2)下,求Pg-1.84o5.对于正态总体N(,2)取值的概率:
(1)(卩-o,(+o):
(2)(卩-2o,+2o)
(3)(卩-3o,+3o)
取值的概率分别为68.3%、95.4%、99.7%。
因此我们时常只在区间(卩-3c,卩+3o)内研究正
态总体分布情况,而忽略其中很小的一部分,这一部分情况发生为小概率事件。
6.下列关于正态曲线性质的叙述正确的是
(1)曲线关于直线x=卩对称这个曲线只在x轴上方;
(2)曲线关于直线x=o对称这个曲线只有当x€(-3o,30时才在x轴上方;
(3)曲线关于y轴对称,因为曲线对应的正态密度函数是一个偶函数;
(4)曲线在x=卩时处于最高点,由这一点向左右两边延伸时,曲线逐渐降低;
(5)曲线的对称轴由卩确定,曲线的形状由o确定;
(6)0越大,曲线越“矮胖”总体分布越分散;o越小,曲线越“高”总体分布越集中.()
(A)只有
(1)(4)(5)(6)(B)只有
(2)(4)(5)
(C)只有⑶(4)(5)(6)(D)只有
(1)(5)(6)
7.把一个正态曲线a沿着横轴方向向右移动2个单位,得到一个新的曲线b,下列说法不正确的是
(A)曲线b仍然是正态曲线(B)曲线a和曲线b的最高点的纵坐标相等
(C)以曲线a为概率密度曲线的总体的方差比以曲线b为概率密度曲线的总体的方差大2
(D)以曲线a为概率密度曲线的总体的期望比以曲线b为概率密度曲线的总体的期望小2
1
8.在正态总体N(0,-)中,数值落在(-空-1)U(1,+X)里的概率为
9
(A)0.097(B)0.046(C)0.03(D)0.003
9.设随机变量Z7N(2,4),则D(—)等于
2
(A)1(B)2(C)0.5(D)4
10.
设随机变量Z〜Ng,o2),且P(Z€)=P(Z泊),则C等于()
12.填空题
(1)若随机变量Z〜N(1,0.25),则2Z的概率密度函数为.
(2)期望为2,方差为2的正态分布的密度函数是.
⑶已知正态总体落在区间(0.2,+x)的概率是0.5,则相应的正态曲线f(x)在x=时,达到最
咼点.
⑷已知Z〜J(0,1),P(Z《96)=①(1.96)=0.9750,则①(-1.96)=.
⑸某种零件的尺寸服从正态分布N(0,4),则不属于区间(-4,4)这个尺寸范围的零件约占总数
的.
(6)某次抽样调查结果表明,考生的成绩(百分制)近似服从正态分布,平均成绩为72分,96分以上
的考生占考生总数的2.3%,贝U考生成绩在60至84分之间的概率
为.①⑴=0.8413、①
(2)=0.977、①(3)=0.9987
参考答案:
1
(1)0,1
(2)1,2(3)-1,0.5;2.
(1)x=-1时
x=-1.3.
(1)0.3413
(2)0.1574(3)0.8185
4.
(1)F(3)=0.8413
(2)P(卩-1.84o厅2.(x2)2
12.
(1)f(x)e2(x1);
(2)f(x)e4;(3)0.2;(4)0.025;(5)4.56%;(6)=12;P=0.6826.
9672
F(96)=()10.0230.9770
(2),12,
84726072
F(84)-F(60)=
(1)
(1)2
(1)10.6826
1212
正态分布和线性回归
高考要求
1.了解正态分布的意义及主要性质
2.了解线性回归的方法和简单应用知识点归纳
1•正态分布密度函数:
其中n是圆周率;e是自然对数的底;x是随机变量的取值;卩为正态分布的均值;c是正态分
布的标准差.正态分布一般记为N(,2)-
2•正态分布N(,2))是由均值卩和标准差c唯一决定的分布
例1、下面给出三个正态总体的函数表示式,请找出其均值卩和标准差c.
(1)f(x)
14(
e,(-x(2)f(x)
1(x1)2
—e8,(-82、2
解:
(1)0,1
(2)1,2
3.正态曲线的性质:
正态分布由参数y、c唯一确定,如果随机变量〜N(卩,C),根据定义有:
尸E,c=D。
正态曲线具有以下性质:
(1)曲线在x轴的上方,与x轴不相交。
(2)曲线关于直线x=卩对称。
(3)曲线在x=卩时位于最高点。
(4)当x<卩时,曲线上升;当x>卩时,曲线下降。
并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。
(5)当卩一定时,曲线的形状由c确定。
c越大,曲线越“矮胖”表示总体越分散;c越小,曲线越“瘦高”,表示总体的分布越集中。
五条性质中前三条较易掌握,后两条较难理解,因此应运用数形结合的原则,采用对比教
4.标准正态曲线:
当尸0、c=l时,正态总体称为标准正态总体,其相应的函数表示式是
1~2/、
f(x)e2,(-xvxv+x)
42
其相应的曲线称为标准正态曲线.
标准正态总体N(0,1)在正态总体的研究中占有重要的地位.任何正态分布的概率问题
均可转化成标准正态分布的概率问题•
5.标准正态总体的概率问题:
对于标准正态总体N(0,1),(xo)是总体取值小于xo的概率,
即(X。
)P(xXo),
其中Xo0,图中阴影部分的面积表示为概率P(xXo)•只要有标准正态分布表即可查表解决.
从图中不难发现:
当Xoo时,(Xo)1(xo);而当Xoo时,①(o)=o.5-
例2设X~N(,2),且总体密度曲线的函数表达式为:
(1)求u,c;
(2)求P(|x1|-2)的值
分析:
根据表示正态曲线函数的结构特征,对照已知函数求出卩和c。
禾I」用一般正态总体N(,2)与标准正态总体N(o,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。
解决了的问题,是我们常用的手段与思考问题的出发点。
通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。
9•相关关系:
当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系•
相关关系与函数关系的异同点如下:
相同点:
均是指两个变量的关系+
不同点:
函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系.
10•回归分析一元线性回归分析:
对具有相关关系的两个变量进行统计分析的方法叫做回归分析+通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性+
对于线性回归分析,我们要注意以下几个方面:
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法。
两个变量具有相关关系是回归分析的前提。
(2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。
(3)求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。
11•散点图:
表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地
反映了各对数据的密切程度•粗略地看,散点分布具有一定的规律.
12.回归直线
A
设所求的直线方程为ybxa,,其中a、b是待定系数.
n
(Xix)(yiy)
n
Xiyinxy
b
i1
i1
nn
-1-1
n
n
(XiX)2
22,
Xinx
XXi,yy
ni1ni1
a
i1
ybx
i1
相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析•
13.相关系数:
相关系数是因果统计学家皮尔逊提出的,对于变量y与x的一组观测值,
把
nn
(Xix)(yiy)Xiyinxy
i1i1
n
22
(Xix)(yiy)
i1i1
Inn
2222
(Xinx)(yiny)
i1i1
叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度•
14.相关系数的性质:
r<1,且r|越接近1,相关程度越大;且r越接近0,相关程度
越小.一般的,当r0.75时,就可以判断其具有很强的相关性,这时求线性回归方程才有
意义
例3假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料:
X
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
若由资料可知y对x呈线性相关关系。
试求:
(1)线性回归方程;
(2)估计使用年限为10年时,维修费用是多少?
分析:
本题为了降低难度,告诉了y与x间呈线性相关关系,目的是训练公式的使用解:
(1)列表如下:
i
1
2
3
4
5
Xi
2
3
4
5
6
yi
2.2
3.8
5.5
6.5
7.0
Xiyi
4.4
11.4
22.0
32.5
42.0
2
Xi
4
9
16
25
36
55
2
x4,y5,xi90,xiyi112.3
i1i1
5
xiyi5xy
于是b丄一-112・354251.23,
52-290542
Xi5x
i1
aybx51.2340.08。
.,A
•••线性回归方程为:
ybxa1.23x0.08。
A
(2)当x=10时,y1.23100.0812.38(万元)
即估计使用10年时维修费用是12.38万元。
点评:
本题若没有告诉我们y与x间是呈线性相关的,应首先进行相关性检验。
如果本身
两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出回归方程也是没
有意义的,而且其估计与预测也是不可信的。