线性回归模型参数估计浅谈.doc

上传人:wj 文档编号:2505309 上传时间:2023-05-03 格式:DOC 页数:24 大小:829.03KB
下载 相关 举报
线性回归模型参数估计浅谈.doc_第1页
第1页 / 共24页
线性回归模型参数估计浅谈.doc_第2页
第2页 / 共24页
线性回归模型参数估计浅谈.doc_第3页
第3页 / 共24页
线性回归模型参数估计浅谈.doc_第4页
第4页 / 共24页
线性回归模型参数估计浅谈.doc_第5页
第5页 / 共24页
线性回归模型参数估计浅谈.doc_第6页
第6页 / 共24页
线性回归模型参数估计浅谈.doc_第7页
第7页 / 共24页
线性回归模型参数估计浅谈.doc_第8页
第8页 / 共24页
线性回归模型参数估计浅谈.doc_第9页
第9页 / 共24页
线性回归模型参数估计浅谈.doc_第10页
第10页 / 共24页
线性回归模型参数估计浅谈.doc_第11页
第11页 / 共24页
线性回归模型参数估计浅谈.doc_第12页
第12页 / 共24页
线性回归模型参数估计浅谈.doc_第13页
第13页 / 共24页
线性回归模型参数估计浅谈.doc_第14页
第14页 / 共24页
线性回归模型参数估计浅谈.doc_第15页
第15页 / 共24页
线性回归模型参数估计浅谈.doc_第16页
第16页 / 共24页
线性回归模型参数估计浅谈.doc_第17页
第17页 / 共24页
线性回归模型参数估计浅谈.doc_第18页
第18页 / 共24页
线性回归模型参数估计浅谈.doc_第19页
第19页 / 共24页
线性回归模型参数估计浅谈.doc_第20页
第20页 / 共24页
亲,该文档总共24页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

线性回归模型参数估计浅谈.doc

《线性回归模型参数估计浅谈.doc》由会员分享,可在线阅读,更多相关《线性回归模型参数估计浅谈.doc(24页珍藏版)》请在冰点文库上搜索。

线性回归模型参数估计浅谈.doc

中图分类号:

O151.2

本科生毕业论文

(申请学士学位)

论文题目线性回归模型参数估计浅谈

作者姓名

所学专业名称数学与应用数学

指导教师

2011年6月04日

学号:

论文答辩日期:

2011年6月04日

指导教师:

(签字)

滁州学院本科毕业论文(设计)原创性声明

本人郑重声明:

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

本人完全意识到本声明的法律后果由本人承担。

作者签名:

年月日

目录

摘要:

. 1

Abstract. 1

1.绪论 2

1.1背景 2

2.最小二乘法的简单原理及应用 3

2.1问题的引入 3

2.2最小二乘法原理的证明 4

2.2.1最小二乘法原理的初等证明 4

2.2.2利用欧氏空间证明最小二乘法 5

2.3最小二乘法简单运用举例 6

2.3.1用最小二乘法求中学数学中《直线型经验公式》的最佳近似解 7

2.3.2实验数据的最小二乘法拟合 7

3.一般线性回归模型的参数估计 8

3.1一般线性回归模型与最小二乘估计 9

3.2模拟分析 11

3.3 修正的最小二乘估计 11

总结 15

参考文献 16

致谢 17

线性回归模型参数估计浅谈

摘要:

最小二乘法是从误差拟合角度对回归模型进行参数估计或系统辨识,,并在参数估计、系统辨识以及预测、预报等众多领域中得到极为广泛的应用。

然而,最小二乘法因其抽象、难懂常常被大家所忽视。

传统的最小二乘估计在处理一般线性回归模型的参数和的估计问题时,若遇到异常数据模型拟和得往往不好,现给出这个估计方法的修正:

修正的最小二乘估计.结果表明此方法在处理异常数据时具有明显的优越性.

关键词:

线性回归模型;参数估计;最小二乘估计;修正的最小二乘估计

中图分类号:

O151.2

LinearRegressionModelParameterEstimationShowing

Abstract:

LeastsquaresfittingAngleisfromerrorestimatesparametersoftheregressionmodel,systemidentification,intheparameterestimation,systemidentificationandvarietyoffieldsandforecastinggetextremelyextensiveapplication.However,theleastsquaresbecauseitsabstractandobscureoftenignoredbyeverybody.Thetraditionalleastsquaresestimateindealingwithgenerallinearregressionmodelparametersandwhentheestimationproblem,ifencounterabnormaldatamodelfittingandoftenbad,herepresentedanothermethodofestimating:

fixedtheleast-squareestimation.Theresultsshowthatthismethodindealingwithabnormaldatahasobvioussuperioritywhen.

Keywords:

Linearregressionmodel:

Parameterestimate;Leastsquaresestimate;Fixedtheleast-squareestimation

2

1绪论

回归分析是一种传统的应用性较强的科学方法,是现代应用统计学的一个重要的分支,在各个科学领域都得到了广泛的应用。

它不仅能够把隐藏在大规模原始数据群体中的重要信息提炼出来,而且能把握住数据群体的主要特征,从而得到变量间相关关系的数学表达式,利用概率统计知识对此关系进行分析,以判别其有效性,还可以利用关系式,由一个或多个变量值去预测和控制另一个因变量的取值,从而知道这种预测和控制达到的程度,并进行因素分析。

1.1背景

线性回归是利用数理统计中的回归分析,来确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法之一,运用十分广泛。

在实际问题中我们常常会遇到多个变量同处于一个过程之中,它们相互联系、相互制约。

在有的变量间有完全确定的函数关系,比如圆面积与半径之间存在关系式。

另外还有一些变量,它们之间也有一定的关系,然而这种关系并不完全确定,比如正常人的血压与年龄有一定的关系,一般讲年龄大的人血压相对高一些,但是它们之间就不能用一个确定的函数关系式表达出来。

回归分析就是寻找这类不完全确定变量间的数学关系式并进行统计推断的一种方法。

无论是国内还是国外对与线性回归的研究都是与日俱增,无论是对与一元线性回归还是多元线性回归的问题,国内外都对其做出了各种不同的参数估计。

GilesJA,GilesDEA,Ohtani,K在1996年发布了确切的风险和线性回归的一些前测问卷发放平衡损失[5],国内对与线性回归的参考文献也很多,王虹(2000)分析了线性回归主成份在教学评估中的应用[3],张红兵和张晓青(2004)发表了PVC异型材工艺参数的主成份分析法[4],王松桂、史建江、尹素菊等(2004)线性模型引论也介绍了线性回归模型中的参数估计[7]。

本文主要研究如何从现实问题中构造适当的的线性回归模型得出回归方程,最小二乘估计简单原理和应用,修正的最小二乘法估计解决一般线性回归模型参数估计,显著性检验的正确性,模拟的清晰化。

2最小二乘法的简单原理及应用

最小二乘法是从误差拟合角度对回归模型进行参数估计或系统辨识,并在参数估计、系统辨识以及预测、预报等众多领域中得到极为广泛的应用。

然而,最小二乘法因其抽象、难懂常常被大家所忽视。

最小二乘法作为一种传统的参数估计方法,早已经被大家所了解。

然而许多人对最小二乘法的认识都比较模糊,仅仅把最小二乘法理解为简单的线性参数估计。

事实上,最小二乘法在参数估计、系统辨识以及预测、预报等众多领域都有着广泛的应用。

2.1问题的引入

已知某种材料在生产过程中的废品率与某种化学成分有关。

下列表中记载了某工厂生产中与相应的的几次数值:

(%)

1.00

0.9

0.9

0.81

0.6

0.56

0.35

(%)

3.6

3.7

3.8

3.9

4.0

4.1

4.2

我们想找出对的一个近似公式。

解:

把表中数值划出图来看,发现它的变化趋势近于一条直线。

因此我们决定选取的一次式来表达。

当然最好能选择适当的使下面的等式

都成立。

实际上是不可能的,任何代入上面各式都会发生误差。

于是想找使上面各式的误差的平方和最小,即找到使

最小。

这里讨论的是误差的平方即二乘方,故称为最小二乘法。

现在转向为一般的最小二乘法问题:

实系数线性方程组

(2.1)

可能无解。

即任何一组实数都可能使

(2.2)

不等于零。

2.2最小二乘法原理的证明

2.2.1最小二乘法原理的初等证明

定理1:

是方程组(2.1)的最小二乘解的充要条件是是方程组

(2.3)

的解。

证明:

(2.4)

把整理为关于的二次函数得:

其中。

4

必要性:

设是方程组(2.3)的最小二乘解,知有最小值,且是最小值点。

由二次函数的性质得知二次函数,故不全为零(与列满秩的假设一致),且满足:

(2.5)

化简得:

(2.6)

这就是方程组(2.6)。

不难看出方程组(2.6)的系数矩阵为(表示的转置矩阵),由列满秩知,故(2.6)有唯一解。

必要性得证。

充分性:

设是方程组(2.2)的解,由(j=1,2,...,n)满足方程组(2.6),也就是满足(2.4)式,再由于列满秩,不全为零,故⑶中二次项系数,⑷中式有最小值且最小值点为,所以是方程组(2.1)的最小二乘解。

2.2.2利用欧氏空间证明最小二乘法

下面我们利用欧氏空间的概念来表达最小二乘法,并给出最小二乘解所满足的代数条件。

用距离的概念,(2.2)就是

最小二乘法就是找,使与的距离最短,但从(2.2),知道向量就是

把的各列向量分别记为。

由它们生成的子空间为,就是中的向量。

于是最小二乘法问题可叙述成:

找使(2.2)最小,就是在中找一向量,使得它到的距离比到子空间中其它向量的距离都短。

应用前面所给出的结论,设

是所要求的向量,则

必须垂直于子空间。

为此只需而且必须

根据矩阵乘法规则,上述一串等式可以写成矩阵相乘的式子,即

而按行正好排成矩阵,上述一串等式结合起来就是

这就是最小二乘解所满足的代数方程,它是一个线性方程组,系数矩阵,常数项是。

2.3最小二乘法简单运用举例

6

2.3.1用最小二乘法求中学数学中《直线型经验公式》的最佳近似解

例一个弹簧的长度和它悬挂的重量间的关系如下:

W

2

4

6

8

10

12

L

8.9

10.1

11.2

12.0

13.1

13.9

求关于、W的经验公式。

解:

设所求的经验公式为

把表中各数据代入此方程得方程组:

有最小二乘法原理知:

解得:

,。

2.3.2实验数据的最小二乘法拟合

例在落体运动中,物体的位移与时间的关系可表为

表示位移,表示初速度,为重力加速度。

在一次落体实验中,得到如下数据:

t(秒)

0

0.1

0.2

0.3

0.4

0.5

s(厘米)

0.6

17.0

41.0

76.0

120.5

175.1

试根据以上数据确定和、。

解:

现在要用五个实验点拟合的是二次多项式(=5,=21),即。

有最小二乘法的曲线拟合原理知

所拟合的二次多项式为

所以厘米/秒。

3一般线性回归模型的参数估计

最小二乘估计是拟和一般线性回归模型的常用方法。

由于其估计值的优良性质,很多文献都对该方法进行了详细介绍。

(3.1)

本文利用该方法拟和上述线性模型,并回顾最小二乘估计的一些性质,然后用具体数据

8

集来评估所拟和的模型.通过拟和后的残差,发现最小二乘法的不足,从而提出新的拟和方法—“修正的最小二乘法”,并用于拟和上数据集.新的结果表明,本文拟和方法是切实可行的,并在分析上数据时,具有优越性。

3.1一般线性回归模型与最小二乘估计

考虑不相关的观察满足

(3.2)

记,,则(3.2)亦即

(3.3)

其中是阶单位阵,和是未知参数,为已知的自变量矩阵。

问题是对于观察,如何估计参数和?

最小二乘法是十分普通的估计参数向量和的一种方法.具体的说,就是极小化“观察和其期望之间差的平方”:

(3.4)

上式极小化问题的解称为参数的“最小二乘估计”。

由于上式是关于可微的,所以应满足下列“正规方程”

(3.5)

如果是可逆的,则是唯一确定的。

一般地,我们可以假定是可逆的,由于是的线性形式,所以在线性估计类中研究的性质是十分有意义的.。

定理2 设(3.3)成立,则的全部线性无偏估计类中,的最小二乘估计是唯一的一个方差一致最小的估计。

这个定理表明:

一方面是无偏估计,即=,另一方面,是在线性无偏估计限制条件下,方差一致最小者。

从而,的均方误差也是一致最小的(因为“均方误差”=偏差的平方+方差),然而,定理1只有在模型(3.3)中假设成立时才成立。

如果观察是相关的,不妨假定,这时我们有与(3.3)相对应的一般线性回归模型:

(3.6)

由于>0,所以我们可以作变换,于是模型(3.6)可以改写成

(3.7)

其中从而问题转化成模型(3.3)中的参数估计问题。

这样与(3.3)的最小二乘估计相对应,我们可得到(3.7)中的的最小二乘估计。

(这里,由于可逆)。

在(3.7)下,上述有类似定理1的结果成立。

注1如果(3.6)中假设中,则不存在,这时,我们可使用的“广义逆”来代替而求得的最小二乘估计。

其中表示的广义逆。

但这时不是唯一的,因为不唯一(称为广义逆)。

注2如果不可逆或不可逆,则所对应的最小二乘估计并不是好的估计,这时存在一些修正的估计。

如岭估计:

.

注3当时,即为“最大似然估计”.。

但是实际问题中,我们不知道是否正态,这不一定是一个好的估计。

下面我们考察的估计,它反映了观察误差的大小,因而在实用上很重要。

考虑残差。

其中,作为第i次观察误差的估计。

因而一般地说,当越大(或小)时,倾向于大(或小)。

因此,的平方和,即

(3.8)

是衡量大小的一个合理指标,称为“残差平方和”,记为,则

10

滁州学院本科毕业论文

(3.9)

利用二次型期望公式,可得,于是令

(3.10)

则是的无偏估计。

注4上述估计和都是基于最小二乘原理(即标准(3.4)式)。

它们具有一些优良性质,如“一致最小方差无偏性”,但是这些性质都是在模型(3.3)的假设成立时得到的。

如果不成立,则需要其他的估计方法。

3.2模拟分析

为了评估最小二乘估计,我们考虑下列回归模型(一元情形)

(3.11)

其中,,,利用统计软件SAS生成一容量的伪随机样本独立同分布,且为标准正态分布。

然后利用(11)得到相应的,结果见表4。

表4 用SAS软件得到的模型(3.11)的随机样本

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.7172

0.6114

0.5976

1.1627

0.9730

2.4221

0.2258

2.3754

0.45

0.50

0.55

0.60

0.65

0.70

0.75

0.80

1.0598

1.3451

2.2842

2.7021

2.2671

2.2167

3.0464

2.2642

0.85

0.90

0.95

1.00

2.4507

1.0016

3.3896

2.4428

利用上节介绍的最小二乘法(模型(3.3)和正规方程(3.5)),可求得相应的最小二乘估计:

  (3.12)

(1)人造异常值:

对于上述观察,,把第3个观察值增加1,这样是一个异常点.对如此得到的新数据集,采用最小二乘方法拟合,得到,。

显然,最小二乘估计与真实参数,相差太远,效果很不好。

因而,我们需要对最小二乘方法加以修正,这就导致了下节的修正的最小二乘法。

3.3修正的最小二乘估计

上一节介绍了最小二乘估计,当有异常值出现时,有较大的偏离。

这里提出一种新的估计方法,它是以最小二乘法为基础修正的,称之为“修正的最小二乘法”。

回到(3.4),可以看到最小二乘估计极小化“向量与之间的距离”。

由于是一个人造异常值,它使得上例中新的向量与之间的距离发生了变化(因为被人工增加了1),从而导致了的估计发生了变化。

经过分析,发现是所有中最大的。

为此,这里考虑修正(3.4)的右边得

其中

,为常数。

修正的最小二乘估计将是极小化上式的解。

这个似乎依赖于,但经验表明:

如果靠近1.345倍误差标准差,则对不太敏感。

在下述分析中,我们取。

其中为模型误差的标准差的稳健估计。

求解是一个非线性优化问题,简单的单纯形算法可以用于求解此问题,,MATLAB软件中的函数fminsearch可执行相应的任务。

下面讨论的具体计算问题:

1)计算最小二乘估计并求出残差,

2)估计残差,的标准误差.将排序并去掉开头和末尾各2.5%的数据点,然后计算剩余数据的样本标准差,即得到S。

3)以为初值,利用MATLAB中的函数fminsearch计算。

由于初值是相合估计,所以上述迭代过程收敛速度很快。

现在应用前面的修正的最小二乘估计来分析第3节中表1中数据集,发现和(取)与(3.12)中估计很接近,但当用于新数据时,得到拟合系数(=0.5548,=2.3421)这表明修正的最小二乘估计在两个数据集的拟合中都很好。

下面给出相关例子来说明。

例1在动物学研究中,有时需要找出某种动物的体积与重量的关系。

因为动物的重量相对而言容易测量,而测量体积比较困难,因此,人们希望用动物的重量预测其体积。

下面是18只某种动物的体积与重量数据,在这里,动物重量被看作自变量,用表示,单位是,动物体积则作为因变量,用表示,单位为,18组数据列于表5中。

12

滁州学院本科毕业论文

表18只某种动物的重量与体积数据

10.4

10.2

15.1

14.8

16.5

15.9

10.5

10.4

15.1

15.1

16.7

16.6

11.9

11.6

15.1

14.5

17.1

16.7

12.1

11.9

15.7

15.7

17.1

16.7

13.8

13.5

15.8

15.2

17.8

17.6

15.0

14.5

16.0

15.8

18.4

18.3

为能用动物重量估计动物体积,必须建立动物体积y关于动物重量x的回归方程。

通过观察发现俩个变量之间有一个线性相关关系,下面求该线性回归方程,计算过程见表6

表6计算表

由此给出回归方程为

接下来我们考虑关于回归方程的显著性检验。

经计算有

,,

,,

,,

把诸平方和一如方程分析表上,继续计算,具体见表7

表7动物体积与重量回归方程的方差分析表

来源

平方和

自由度

均方和

F比

回归

2346.9

残差

总计

若取=0.01,则,由于,由此,在显著性水平0.01下回归方程是显著的。

如果测得某动物的重量为,该动物的估计值为

若取=0.05,则,又,

从而该动物体积的概率为0.95的预测区间为

求近似预测区间,由于,故有,则所求区间为

(17.2858-0.3924,17.2858+0.3924)=(16.8934,17.6782)

此处近似预测区间与精确预测区间差距已不大了,当更大一些,两者差距会更小一些。

例2在生产中积累了32组某种铸件在不同腐蚀时间下腐蚀深度的数据,求得回归方程为

且误差方差的无偏估计为,总偏差平方和为0.1246.

(1)对回归方程作显著性检验(),列出方差分析表;

(2)求样本相关系数;

14

(3)若腐蚀时间,试给出的0.95近似预测区间。

解:

(1)由已知条件可以得到,因此,把这些平方和移至如下方差分析表上,继续计算

来源

平方和

自由度

均方和

F比

回归

0.08104

1

0.08104

55.8127

残差

0.4356

30

0.001452

总计

0.1246

31

若取显著性水平,则,因此回归方程是显著的,此处,此处,回归方程显著性检验的值为

这是一个很小的概率,说明回归方程显著性很高。

(2)样本相关系数

(3)若腐蚀时间,则的预测值为

其0.95近似预测区间半径为

从而y的0395近似预测区间为[1.5247-0.0747,1.5247+0.0747]={1.4500,1.5994}.

总结

本文首先较为全面的介绍了研究目标、研究内容和研究意义,使得研究目标更为明确。

然后引入了最小二乘估计的原理和它的简单应用举例,给出了最小二乘估计的初等证明,然后利用欧式空间来证明最小二乘估计,最后通过一个例子来对最小二乘估计有个更清楚的了解。

既然证明了最小二乘估计,现在我们需要通过最小二乘估计解决一般线性回归中的参数估计。

在线性回归模型的参数估计中,最小二乘估计是最基本的,但是它是最重要的。

本文就一般线性回归模型中的参数估计用最小二乘估计做出了模拟分析,而后推导了修正的最小二乘估计并证明了它的正确性。

回归分析是研究变量间相关关系的一门学科。

它通过对客观

15

食物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出他们的表达形式—回归函数的估计。

参考文献

[1]李德强,黄莎白,基于正交最小二乘法的小波网络在系统辨识中的应用[J].控制与决策,2003(3):

49-67.

[2]景春国,白秋果,最小二乘法在原油含水分析仪标定中的应用[J].仪器仪表学报,2003

(1):

18-30.

[3]王虹,主成份分析在教学评估中的应用[J].山西师范大学学报(自然科学版),2000(3):

21-27.

[4]张红兵,张晓青,PVC异型材工艺参数的主成份分析法[J].北京机械工业学院学报,2004(4):

81-92.

[5]GilesJA,GilesDEA,Ohtani,K.Theexactris

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2