第八章一元线性回归分析Word文档格式.doc
《第八章一元线性回归分析Word文档格式.doc》由会员分享,可在线阅读,更多相关《第八章一元线性回归分析Word文档格式.doc(24页珍藏版)》请在冰点文库上搜索。
最后简单介绍一下“回归”这一名称的由来.这个术语是英国生物学家兼统计学家高尔顿(F.Galton)在1886年左右提出来的.他在研究子代的身高与父母的身高的关系时,收集了1078对父母及其成年儿子的身高数据.高尔顿以父母之平均身高X作为自变量,以成年儿子的身高作为因变量,将值标在直角坐标系内,发现二者有近乎直线的关系,总的趋势是增加时倾向于增加,这与人们的常识是一致的.用他的数据可以计算出儿子身高与父母平均身高的经验关系
.(8.3.2)
高尔顿算出1078个值的算术平均值为=68英寸(1英寸=2.54厘米),1078个Y值的算术平均值为69英寸,子代身高平均增加了1英寸.按常理推想,当父母的平均身高为英寸,子代的平均身高也要增加1英寸,即变为英寸,但事实上不然.按(8.3.2)计算,父母身高平均72英寸(注意比平均身高68英寸要高),子代平均身高为71英寸,而并非73英寸,与父母相比有变矮的倾向.父母身高平均为64英寸(注意比平均身高68英寸要矮),子代平均身高为67英寸,比预计的64+1=65(英寸)要多,与父母相比有增高的趋势.这种现象不是个别的,它反映了一般规律.高尔顿对这个结论的解释是:
大自然有一种约束力,使人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的回归效应,人的身高因约束力而“回归于中心”.
正是通过这个例子,高尔顿引入了“回归”一词.人们把(8.3.2)所表示的直线称为回归直线.其实两变量间有回归效应的现象并非普遍现象,更多的相关关系不具有这一特征,特别是涉及多个自变量的情况时,回归效应不复存在.因此称谓“线性回归模型”、“经验回归方程”等概念中的“回归”一词并非总有特定意义,只是一种习惯说法而已.
8.3.2.一元线性回归模型
考虑因变量y和一个自变量的一元线性回归,假设回归模型为
y=+,,(8.3.3)
其中为随机误差,其均值为,方差为,是随机变量,是非随机变量(除非特别声明,我们考虑的回归分析中一律把自变量视为非随机的),,和都是未知参数.称为常数项或截距,称为回归系数.(8.3.3)式称为理论模型.
现设对模型(8.3.3)中的变量,y进行了n次独立观察,得到样本值(,),(,),…,(,),从而
=十+(i=1,2,…,n),(8.3.4)
其中是第次观察随机误差所取之值,它是不能观察到的.对(=1,2,…,n)最常用的假定是:
(1)误差项的均值为零,即=0(=1,2,…);
(2)误差项具有等方差,即(8.3.5)
(3)误差项彼此不相关,即=0(
通常称假定(8.3.5)为Gauss-Markov假定.在这三条假定中,
(1)表明误差项不包含任何系统的影响因素,视测值在均值的上下波动完全是随机的.
(2)要求等方差,也即要求在不同次的观测中在其均值附近波动程度的大小是一样的.(3)则等价于要求不同次的观测是不相关的.统计学中把(8.3.4)式及假设(8.3.5)合一起称为一元线性回归模型,它给出了样本观测值(,)(1,2,…n)的概率性质,并可以对理论模型(8.3.3)进行统计推断.可见,理论模型(8.3.3)只起了一个背景的作用.
对的进一步假定是
(8.3.6)
这是一个比Gauss—Markov假设更强的假设,指明了误差项所服从的分布.由(8.3.4)式有
且相互独立.本章只讨论如下的一元线性回归模型
(9.3.7)
在多数应用问题中,我们选择与之间的线性回归形式很难有充分根据,在很大的程度上要依靠数据本身.将独立试验的几个观测值在直角坐标系中描出相应的一点,所得图形称为散点图,如图9—1所示.散点图中的点虽杂乱无章,但当它们大体呈现出一种直线走向的趋势时,选取线性回归函数是比较合理的.否则的话,我们应选取适当形式的曲线来拟合这些点,用曲线方程反映,y之间的相关关系才更精确些.
图9—1观测数据的散点图
考虑模型(8.3.7),如果由样本得到参数夕的估计,则称方程
为y关于的线性回归方程或回归方程,其图形称为回归直线.
对于模型(8.3.7)将从下列各方面逐一研究.
1)未知参数的估计
(1)的估计——最小二乘法.回归分析的主要任务就是要建立能够近似反映的相关关系的经验回归函数.这里“经验”是指回归函数是由当前的样本观测值得出的,也就是根据数据由模型(8.3.7)去估计,.怎样给出的估计才是合理的呢?
我们要定出一个准则,以衡量由此所导致的偏差,希望偏差越小越好.假若以作为的估计时,偏差的绝对值越小,说明用代替时误差越小.考虑到数学处理上的方便,衡量这些偏差大小的一个合理的指标为它们的平方和(通过平方去掉差值正负符号的影响).记
(8.3.8)
则反映了n次观察中总的偏差程度,称为残差平方和.若,使Q(,)越小,则模型拟合数据越好,因此只需极小化Q(),以所得的作为的相应估计.所谓最小二乘法就是按照这一思路,通过使残差平方和达到最小来估计回归系数的一种方法.这一重要方法一般归功于德国大数学家高斯在1799年~1809年间的工作.用最小二乘法导出的估计有一些良好性质,因而该法在数理统计中有广泛的应用.
对于模型(8.3.7),最小二乘法与我们常用的最大似然估计法所得到的结果是一致的.因为的联合概率密度为
求使达到极大值的,只需极小化,这个和不是别的,正是我们上述的残差平方和.
利用多元函数求极值的方法,分别求关于的偏导数,并令它们分别等于零:
整理得
(8.3.9)
其中=.
方程组(8.3.9)称为正规方程组。
由于一般要求不全相同,即试验点的选取不能只集中在一点,则方程(8.3.9)的系数行列式
从而正规方程组(8.3.9)的唯一解为
(8.3.10)
(8.3.10)式中的,良分别称为,的最小二乘估计,于是所求的线性回归方程为
(8.3.11)
若将=式代入(9.3.11)式,则得线性回归方程
(8.3.12)
可见,回归直线总通过点,).(,)称为样本数据的几何中心.
根据模型(8.3.7)中的假定,很容易推出最小二乘估计和的一些性质.
(i),和+的线性无偏估计.
事实上,线性性显然.由,得
.
(ii),和的方差分别为
根据的正态性和独立性,可得,及+的分布为
(8.3.13)
(8.3.14)
(8.3.15)
这些分布性质在以后的检验和区间估计中有很重要的作用.
另外,由的方差表示式中可以看出:
随着的增大,的方差逐渐减小.这意味着当的取值可以由我们选定时,在一定程度上应使诸的取值尽量散开些,以提高的估计精度.数学上还可以进一步证明,在所有的线性无偏估计量,甚至所有的无偏估计量中,的最小二乘估计量的方差最小(此结论可由著名的Gauss—Markov定理得到,我们不作介绍).还有,随着榉本容量的增大,的方差也会不断减小.
(2)参数的估计.设,是,的最小二乘估计,可用在处作为因变量y的实际观察值为,二者之差
称为残差.
称为残差平方和.
我们不加证明的指出Q的性质如下;
(8.3.16)
三者相互独立.(8.3.17)
利用(8.3.16)及分布的性质,有
;
从而有
若记
.
则是的一个无偏估计.的正平方根S又称为回归估计的标准误差.S越小,表明实际观测值与所拟合的经验回归直线的偏离程度越小,即回归直线具有较强的代表性;
反之,则回归直线的代表性较差.
在回归分析中残差具有重要作用.首先,利用残差给出了的一个估计,需注意,对于模型(8.3.7),服从自由度为n一2的分布,其自由度n一2比样本容量n少2,可以这样理解:
因为中有两个未知参数,需要估计,用掉了两个自由度.另外,通过对残差进行分析可以考察我们假定的回归模型是否正确,称为回归诊断.它已发展成为回归分析的一个分支.当模型正确时,残差应是误差的一个反映,因误差,,,是独立同分布的;
具有“杂乱无章”的性质,即不应呈现任何规律性,因此残差也应如此.如果残差呈现出某种规律性,则可能是模型中某方面假定与事实不符的征兆,就可以怀疑模型假定有问题.许多统计分析软件都可以作出残差图,残差图的分析是回归诊断的一个重要工具.
例8在动物学研究中,有时需要找出某种动物的体积与重量的关系,因为重量相对容易测量,而测量体积比较困难.我们可以利用重量预测体积的值.下面是某种动物的18个随机样本的体重(kg)与体积的数据.
16.710.513.815.711.910.415.016.017.8
16.710.413.515.711.610.214.515.817.6
15.815.112.118.417.116.716.515.115.1
15.214.811.918.316.716.615.915.114.5
求动物体积与体重的回归方程.
解把的数据输入,建立SPSS数据文件,以为因变量,为自变量,调用线性回归分析过程,经计算得
,.
所以与的回归方程为.
=+0.998.
这里回归方程反映了当动物体重为时,体积取值酌平均情况的系数=0.998可解释为动物体重每增加1kg时,动物体积平均增加0.998;
但是=却显然不能解释为动物体重为0时动物的体积,因为.此模型在=0附近可能早巳经不成立了.因此在回归分析模型中系数意义的解释必须特别谨慎.首先自变量之值必须处在一个合理的范围内,另外所作分析必须与实际问题紧密结合,否则就会得出错误结论.
2)模型的检验
在回归分析中,当模型中的未知参数估计出来后,还必须利用抽样理论来检验所得回归方程的可靠性,具体可分为对回归方程拟合程度进行显著性检验和对回归系数进行显著性检验.
在一元线性回归模型中,由于用最小二乘法求回归方程时,并不需要预先假定两个变量y与x一定存在线性关系,即使是平面上一些杂乱无章的散点()也可以用前面的公式给它配一条直线,但这也许毫无意义,所以检验y与x之间是否存枉线性关系是很必要的。
(1)回归方程拟合程度评价指标——判定系数。
所谓拟合程度,是指样本观测值聚集在回归直线周围的紧密程度.判断回归模型拟合程度优劣的最常用的数量指标是判定系数.该指标是建立在对总离差平方和进行分解的单础之上的.
因变量的实际观测值与其样本均值的离差可以分解为两部分:
一部分是因变量的理论回归值与其样本均值的离差,它可以看成是离差中能够由回归直线解释的部分,称为可解释离差;
另一部分是实际观测值与理论回归值的离差,它是不能由回归直线加以解释的残差.
记:
,,
由,并利用,得
从而有
,
即(8.3.18)
(8.3.18)式中称为总的离差平方和;
是可用回归直线解释的那一部分离差平方和,称为回归平方和;
是用回归直线无法解释的离差平方和,称为剩余残差平方和,即残差平方和.
在(8.3.18)式两边同除以,得
可见,各个样本观测值与样本回归直线靠得越紧,在中所占比例就越大。
令
称为判定系数.判定系数是对回归模型拟合程度的综合度量,判定系数越大,模型拟合程度越高;
判定系数越小,则模型对样本的拟合程度越差.显然o≤≤1.=1时,说明总离差完全由所估计的经验回归直线来解释;
当时,经验回归直线没有解释任何离差,模型中自变量x与因变y完全无关,y的总离差全部归于残差平方和.
为了进一步理解判定系数的统计意义,考察一元线性回归模型回归平方和
=
==.
于是
它是因变量y与自变量x之间的样本相关系数的平方.因为相关系数是两个量之间线性相关程度的一种度量,因此愈大,就表示回归方程与样本数据拟合得愈好.
(2)回归方程显著性检验——F检验.在一元回归分析中,整个回归方程是否合用,需要对y与x之间的线性关系进行检验.如果y与x联系很小或根本没有线性关系,则就会很小并接近于零,因此对回归方程进行检验即检验假设
,.
本检验可以根据总离差平方和的分解来构造检验统计量,用方差分析的方法进行F检验.
(8.3.18)式中的三项,是样本观测值总离差,反映了回归值对其平均值的离散程度,反映了观测值与回归直线的偏离程度,反映了扣除因素x的影响后其他因素包括随机因素在内对y的影响.可以证明,当成立时,
.
且与相互独立,其中是随机误差.故当成立时,
.
当x与y之间真正存在线性相关关系,y的离差平方和应该主要是由于自变量x的变化影响所致,回归平方和理应较大,F值倾向于取较大值.相反,若x与y之间没有线性相关关系,x与y的真正关系实际上被纳入误差的范畴,则应该较大,从而比值F较小.因此,对于给定显著性水平,若,则拒绝,认为y与x之间存在线性相关关系;
否则,不拒绝.这种检验称为F检验法或回归方程的方差分析.
F检验的过程通常是用方差分析表来进行,如表8.7所示.
(3)回归系数的显著性检验——t检验.回归分析中的显著性检验包括两个方面:
一方面是对整个回归方程的显著性检验,可以用方差分析的思想方法予以解决.它着眼于整个回归方程,特别对于多个自变量的情形看得更清楚,比如因变量y与自变量的回归方程
表8.7回归分析的方差分析表
方差来源
平方和
自由度
均方
F值
显著性(P值)
回归平方和
剩余平方和
总离差
1
n-2
n-1
要考察整个方程是否合用,可用F检验法进行判别.但整个方程检验合用并不意味着方程包含的各个自变量分别都对因变量有解释作用.因此回归分析中另一个方面的显著性检验就是对回归方程中各回归系数的显著性检验;
,
如果检验时被接受,则自变量实际上可以从方程中去掉;
否则,可认为自变量确实对因变量y有解释作用.可见,各回归系数的显著性检验有别于对整个回归方程的显著性检验,它通常采用t检验法来进行.
在一元线性回归模型中,由于只有一个自变量,对的t检验与对整个方程的F检验两者是等价的.对于多元线性回归模型中两个检验的不同作用就突显出来了.
考虑模型(8.3.7),若自变量与因变量y之间不存在线性关系,则就很小并接近于零.因此检验y与之间是否具有线性相关关系也是检验假设
,
由(9.3.14)式,并记
则在方差已知的情况下,课用前面所学的Z检验法对上述假设进行试验。
一般情况下是未知的,要用无偏估计量代替。
记
则
(8.3.19)
式(8.3.19)中,n为样本容量,n-2为t-分布的自由度。
当确定显著性水平后,根据样本观测值可计算出。
当成立时,因,有
从而可确定的拒绝域为
.
如果的绝对值大于临界值,就拒绝原假设,接受备择假设;
反之,则接受原假设。
在用统计软件进行计算时,在计算机输出结果中往往给出回归系数的t检验的伴随概率,即P值。
当P值小于给定的显著性水平时,拒绝原假设,否则接受.
若经检验,接受原假设,则说明回归效果不明显,表明自变量X对因变量y线性影响程度不大,可能影响的因素除变量外,还有其他不可忽视的因素,因而选择一元回归根本不适合;
或者y与x的关系根本不是线性的,需要作曲线回归;
或者自变量x对因变量y根本无影响。
总之,此时模型不适合用来作诸如内插(在自变量数据的范围之内使用回归方程)、外推(在建立回归方程时所用的自变量数据的范围之外去使用回归方程)等形式的统计推断。
3)回归系数的置信区间
由(9.3.19)式可以作的区间估计,的置信度为1-的置信区间为
其中,
例9(续例8)试对例8求得的回归方程及回归系数进行显著性检验。
若显著时,求出的95%置信度的置信区间。
解由于一元回归分析中对回归方程的拟合检验与回归系数的显著性检验等价,因此给出F检验和t检验两种方法。
用SPSS统计软件的回归方程,计算判定系数,可见此拟合程度较大,模型比较适合。
回归方程的方差分析表如下。
模型
平方和
自由度
均方
回归
残差
总和
94.100
0.651
94.751
1
16
17
0.041
2311.895
3654E-19
由上表知,反映显著性的P值远远小于0.05,故说明所求回归方程y=还是比较合适的。
对作显著性检验
计算.应拒绝原假设,说明相对于误差而言,自变量x对因变量y的线性影响是重要的。
求得的95%的置信区间为(0.944,1.032)。
不包含0值,也能说明且取正值,可见随着体重的增加,动物的体积平均值也是逐渐增大的。
由本例可以看出,从各个不同的方面进行统计分析得出的结论是一致的,回归方程较好地反映了y与x的线性相关关系。
4)预测与控制
回归分析的一个重要应用是用来进行预测和控制。
如果所拟合的经验回归方程经过了检验,并且回归方程有较高的拟合程度,就可以利用其来预测已知x取值时y的取值范围(区间预测)或y的取值(点预测),或者是欲将y的取值限制在某个范围,确定应当如何控制x的取值。
(1)预测问题.预测分点预测和区间预测。
点预测的简单回归预测的基本公式为
(8.3.20)
其中是给定的自变量x的某一取值,是给定时因变量y的预测值,,是用前述方法已估计出的回归系数值。
当给出的属于样本内的数值时,由(8.3.20)式得出的点预测称为内插或事后预测;
而当给出的在在样本之外时,利用(9.3.20)式计算出的称为外推或事前预测。
实际上,这里y在处的预测值就取为回归函数在处的估计。
但是预测问题与估计回归函数问题是有实质区别的,并且由下面计算的预测误差可以看出,预测的精度要比估计回归函数的精度差。
设给定时,y的真值为,则
=。
设为预测的残差,即其中。
注意此处的并不是一个
未知的参数,其本身也具有随机性,是一个随机变量,即被预测量是一个随机变量.
由于(xo,yo