线性回归分析的数学模型Word下载.docx

上传人:b****3 文档编号:7808341 上传时间:2023-05-09 格式:DOCX 页数:32 大小:27.35KB
下载 相关 举报
线性回归分析的数学模型Word下载.docx_第1页
第1页 / 共32页
线性回归分析的数学模型Word下载.docx_第2页
第2页 / 共32页
线性回归分析的数学模型Word下载.docx_第3页
第3页 / 共32页
线性回归分析的数学模型Word下载.docx_第4页
第4页 / 共32页
线性回归分析的数学模型Word下载.docx_第5页
第5页 / 共32页
线性回归分析的数学模型Word下载.docx_第6页
第6页 / 共32页
线性回归分析的数学模型Word下载.docx_第7页
第7页 / 共32页
线性回归分析的数学模型Word下载.docx_第8页
第8页 / 共32页
线性回归分析的数学模型Word下载.docx_第9页
第9页 / 共32页
线性回归分析的数学模型Word下载.docx_第10页
第10页 / 共32页
线性回归分析的数学模型Word下载.docx_第11页
第11页 / 共32页
线性回归分析的数学模型Word下载.docx_第12页
第12页 / 共32页
线性回归分析的数学模型Word下载.docx_第13页
第13页 / 共32页
线性回归分析的数学模型Word下载.docx_第14页
第14页 / 共32页
线性回归分析的数学模型Word下载.docx_第15页
第15页 / 共32页
线性回归分析的数学模型Word下载.docx_第16页
第16页 / 共32页
线性回归分析的数学模型Word下载.docx_第17页
第17页 / 共32页
线性回归分析的数学模型Word下载.docx_第18页
第18页 / 共32页
线性回归分析的数学模型Word下载.docx_第19页
第19页 / 共32页
线性回归分析的数学模型Word下载.docx_第20页
第20页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

线性回归分析的数学模型Word下载.docx

《线性回归分析的数学模型Word下载.docx》由会员分享,可在线阅读,更多相关《线性回归分析的数学模型Word下载.docx(32页珍藏版)》请在冰点文库上搜索。

线性回归分析的数学模型Word下载.docx

第二章线性模型

第一节一元线性模型

在工农业生产及科研中最常遇到的配直线问题,就是回归分析的统计推断方法来求经验公式(线性回归)的问题.如:

例1 

今有某种大豆脂肪含量x(%)与蛋白质含量y(%)的测定结果如下表所示:

试求它们之间的关系(检验公式).

x

16.5

17.5

18.5

19.5

20.5

21.5

22.5

y

43.5

42.6

40.6

40.3

38.7

37.2

首先将这组数据在直角坐标系上描成点,如下图:

一般的,按此方法描点所得的图成为散点图.

从图上可以看出:

这些数据描出的点分布在一条直线附近.于是推出他们大致可以表示为线性关系

这里再y上加“^”是为了区别于他的实际值y,因为y与x一般不具有确定的函数关系,这样,在散点图的启发下,我们选定了回归方程是线性的.然后根据统计推断方法来估计出未知数和从而确定所求的经验公式.一般的,设随机变量y与x之间的相关关系可以用线性模型 

 

 

~N(0,) 

(1)

来表示.这里x是试验或观察中可以控制或精确观测的变量.即非随机变量,y是可观测的随机变量 

是不可观测的随机变量(它表示模型误差,是除去x对Y的先行影响之外的且不能测出的其它各个随机因素对Y的影响的总和)

通过实验观测可得到关于变量x和Y的一组数据(,),(,),……(,)因为对于任意一个(i=1,2,……n),在的观测值在取定前不能精确预言它一定能取什么值,故把看作是随机变量Y的观测值.而相互独立的随机变量,,……为Y的样本.我们知道,样本与样本观测值之间的区别是:

前者是随机变量,后者为取定的数值,但为了叙述方便,今后把样本观察值也成为样本.在符号上均用,,……来表示.具体表示的意义也可由上下文分析清楚,设观测值与样本之间满足关系式:

(i=1,2,……,n) 

(2)

其中~ 

(i=1,2,……,n)且相互独立.

如果两个变量间的关系用上述线性模型描述,则它们之间存在线性相关关系由

(1)有:

E(Y)= 

我们希望根据观测的数据,求出,的估计量, 

这样就可以利用方程 

(3)

去估计随机变量Y的数学期望E(Y).也就是说,将,代入方程

(1)并略去误差,就得到了随机变量Y和变量x的线性关系式(3).方程(3)通常称为Y对x的线性回归方程或回归方程,其图形称为回归直线.[1]

对于

(1)和

(2)所确定的线性模型,所考虑的统计推断主要问题是:

未知参数和的估计:

检验x和Y之间的关系是否可确信是线性关系,即对假设

(1)进行检验,对Y进行预测等.

第二节多元线性模型

一般来讲,影响结果Y的因素往往不止一个.设有,……共p个元素.这时要用图来确定它们的关系是困难的.常可根据经验做出假设.其中最简单的是假设它们之间有线性关系:

…… 

(4)

式中,……都是可精确测量或可控制的一般变量,Y是可观测的随机变量,,,……,都是未知参数,是服从分布的不可观测的随机误差.我们对(4)获得了n组相互独立的观测值(样本).

(;

,,……) 

(5)

于是由(4)式可知具有数据结构式:

i=1,2,……,n 

(6)

其中各个(i=1,2,……,n)相互独立,且均服从.这就是p元线性回归模型.

对于(4)所确定的模型.统计推断的主要问题是:

根据样本去估计未知参数,,……,、,从而建立Y与,……间的数量关系式和对比得到的数量关系式的可信度进行统计检验;

检验各变量,……分别对指标是否有显著影响.[2]

参数的估计

第一节一元线性回归方程参数的估计

有多种确定回归方程也就是确定未知参数,的估计量,,的方法其中最常用的是“最小二乘法”.

我们将采用“最小二乘法原理”来求出,也就是求,使误差(i=1,2,……,n)的平方和

Q== 

(7)

为最小的,值作为参数,的估计量.

由(7)知Q是,的二元函数.即Q=Q(,).按二元函数求极值的方法可得联立方程组:

(8)

这个方程组称为正规方程组

即:

(9)

解此方程组.由(9)的第一式得

因此的估计量为:

(10)

其中

将(10)式代入(9)中的第二式可解得的估计量为

(11)

这样:

利用(10)和(11)确定的,使平方和Q达到最小,从而求出回归方程 

这里,分别表示由(10)和(11)确定的,的值并称为经验截距;

为经验回归系数,简称为回归系数,而是的无偏估计量.

由(10)可得回归方程的另一种形式:

(12)

由此可知,回归直线通过点(,),即通过由馆测值的平均值组成的点,并且回归方程由回归系数完全确定.一般的,把由回归方程确定的x的对应值称为回归值.

根据观测数据,利用(10)和(11)来求回归直线时,常把(11)中的分子和分母分别记为和,且按下面的公式计算:

所以(10)和(11)两式可记作:

(13)

(14)

又有公式:

== 

(15)

然而,对总体中的未知参数进行估计,其主要目的还是建立一元线性回归方程.虽然有一个正规方程组存在实际上并不研究它.以下是建立一元线性回归方程的具体步骤:

(1) 

计算,,,,;

(2) 

计算 

,,(在回归方程作显著性检验时用);

(3) 

计算和写出一元线性回归方程.[3]

序号

1

272.25

1892.25

717.75

2

306.25

1814.76

745.50

3

342.25

788.10

4

380.25

1648.36

791.70

5

420.25

1624.09

826.15

6

462.25

1497.69

832.05

7

506.25

1383.84

837.00

8

23.5

36.0

552.25

1296.00

846.00

9

24.5

34.0

600.25

1156.00

833.00

184.5

355.5

3842.25

14127.75

7217.25

从而可求得=20.5,=39.5,=60,=-70.5,

-1.175,=-=63.588

所求回归方程为63.588-1.175x

例2 

设两个变量x与Y由某种相关关系,测得它的一组数据如下表所示,试求其回归方程.

49.2

50.0

49.3

49.0

49.5

49.8

49.9

50.2

Y

16.7

17.0

16.8

16.6

17.1

解:

根据计算得

=49.61,=16.85,=24613.51,=8359.94

=0.3293,=-=0.5129

所以回归方程为0.5129+0.3293x.

第二节多元线性回归模型的参数估计

设,……,Y有一组观测值(样本);

(,……,)(i=1,2,……n).我们希望由估计,,……,所决定出的回归方程能使一切与之间的偏差达到最小.根据最小二乘法的原理即:

要求

=

所以只要求偏离平方和

达到最小的

为书写方便以下把“”书写成“”

根据微积分中值原理和最小二乘法估计 

是下列方程组的解

(j=1,2,…,n) 

(16)

经整理即得关于的一个线性方程组

……………………… 

(17)

此方程组(17)称为正规方程组.借此方程组就可求得参数的回归值为了求解方便我们将(17)是写成矩阵的形式,令

… 

X= 

,Y= 

,B= 

… 

记(17)式的系数矩阵为A,常数项矩阵为B,则A恰为,B恰为

即:

=A

=B

因此用矩阵的形式可表式为 

在回归分析中通常存在这时最小二乘估计可表式为:

(18)

当我们求出了的最小二乘估计后,就可以建立多元回归方程.[5]

例3某地区所产原棉的纤维能力Y与纤维的公制支数,纤维的成熟度有关,现实测得28组数据(见下表)试建立Y关于,的二元线性回归方程.

i

5415

1.58

4.03

15

6208

1.70

3.81

5700

1.38

4.01

16

5798

1.59

4.00

5674

1.57

17

5551

1.61

4.19

5698

1.55

4.09

18

6059

6165

1.52

3.73

19

6060

1.53

3.96

5929

1.60

20

3.93

7505

1.14

2.95

21

6370

1.45

3.72

5920

1.50

3.90

22

6102

1.49

3.84

7646

1.18

2.89

23

6245

3.88

10

6556

1.27

3.48

24

6644

3.38

11

6475

3.60

25

6191

3.76

12

5907

3.77

26

6352

3.79

13

5697

1.54

3.94

27

5999

14

6618

1.2

3.66

28

5815

1.7

先求出方程组的系数矩阵及常数向量,再求

=172388 

=6156.7143

=41.84 

=1.4943

=106.09 

=3.7889

=1068433202 

=7089539.72 

=63.0632 

=0.5423

=256087.04 

=-1509.8857

=649111.28 

=-4054.5386

=159.4481 

=0.9193

=404.5287

求,的正规方程组为

7089539.72-1509.8857=-4054.5386

-1509.8857+0.5423=0.9193

解得=-0.0005181,=0.2527,==6.6011

所以Y的关于,的二元线性回归方程为=6.6011-0.0005181+0.2527

第四章显著性检验

一元线性回归方程的显著性检验

由上面的讨论知,对于任何的两个变量x和Y的一组观测数据()(i=1,2,……,n)按公式(10)和(11)都可以确定一个回归方程 

然而事前并不知道Y和x之间是否存在线性关系,如果两个变量Y和x之间并不存在显著的线性相关关系,那么这样确定的回归方程显然是毫无实际意义的.因此,我们首先要判断Y和x是否线性相关,也就是要来检验线性假设 

是否可信,显然,如果Y和x之间无线性关系,则线性模型的一次项系数=0;

否则0.所以检验两个变量之间是否存在线性相关关系,归根到底是要检验假设 

根据现行假设对数据所提的要求可知,观察值,,……之间的差异,是有两个方面的原因引起的:

(1)自变量x的值不相同;

(2)其它因素的影响,检验是否成立的问题,也就是检验这两方面的影响哪一个是主要的问题.因此,就必须把他们引起的差异从Y的总的差异中分解出来.也就是说,为了选择适当的检验统计量,先导出离差平方和的分解因式.[6]

一、离差平方和的分解公式

观察值 

(i=1,2,……,n),与其平均值的离差平方和,称为总的离差平方和,记作 

因为 

其中:

=2

所以

由于 

中的,为(10)和(11)所确定.即它们满足正规方程组(9)的解.因此定义项

=

于是得到了总离差平方和的分解公式:

(19)

是回归直线上横坐标为的点的纵坐标,并且 

的平均值为,是这n个数的偏差平方和,它描述了的离散程度,还说明它是来源于的分散性,并且是通过x对于Y的线性影响而反映出来的,所以,称为回归平方和

而 

它正是前面讨论的的最小值,在假设

(1)式的条件下它是由不可观察的随机变量引起的,也就是说,它是由其它未控制的因素及试验误差引起的,它的大小反映了其它因素以及试验误差对实验结果得影响.我们称为剩余平方和或残差平方和.[7]

二、、的性质及其分布

由以上分析可知,要解决判断Y和x之间是否存在线性相关关系的问题,需要通过比较回归平方和和剩余平方和来实现.为了更清楚地说明这一点,并寻求出检验统计量,考察估计量,的性质及其分布.

(一)的分布 

由(14)式可知

在相互独立且服从同一分布的假定下由

(2)知,,……是P个相互独立的随机变量,且 

(i=1,2,……,n)所以他们的平均值的数学期望为:

因为是的线性函数,且有:

这说明是的无偏估计量且的方差为

即:

同样可证,对于任意给定的其对应的回归值(它是的点估计)适合

(,

(二)方差的估计及分布

由、及可得

又由于 

及E(L),E(U)得

=E(L)+E(U)=(n-2)

从而,说明了==是的无偏估计量,由此可见,不论假设成立与否,是的一个无偏估计量,而仅当假设成立时,才是的一个无偏估计量,否则它的期望值大于.说明比值 

(20)

在假设成立时有偏大倾向,也就是说,如果F取得值相当大,则没有理由认为x和Y之间有线性相关关系,也就是下面我们将采用F作为检验统计量的原因.另外,由于,是的最小二乘估计,由(8)式可知

=0 

, 

=0

这表明中的n个变量,……之间有两个独立的线性约束条件,故的自由度为n-2因此 

[8]

三、F检验

由以上讨论可知,当成立时;

且二者相互独立,由此可得 

因此可用这个统计量F作为检验假设的检验统计量.

对给定的显著性水平,查自由度为(1,n-2)的F分布的临值表,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2