回归与相关分析21.docx

上传人:b****8 文档编号:11953775 上传时间:2023-06-03 格式:DOCX 页数:19 大小:54.24KB
下载 相关 举报
回归与相关分析21.docx_第1页
第1页 / 共19页
回归与相关分析21.docx_第2页
第2页 / 共19页
回归与相关分析21.docx_第3页
第3页 / 共19页
回归与相关分析21.docx_第4页
第4页 / 共19页
回归与相关分析21.docx_第5页
第5页 / 共19页
回归与相关分析21.docx_第6页
第6页 / 共19页
回归与相关分析21.docx_第7页
第7页 / 共19页
回归与相关分析21.docx_第8页
第8页 / 共19页
回归与相关分析21.docx_第9页
第9页 / 共19页
回归与相关分析21.docx_第10页
第10页 / 共19页
回归与相关分析21.docx_第11页
第11页 / 共19页
回归与相关分析21.docx_第12页
第12页 / 共19页
回归与相关分析21.docx_第13页
第13页 / 共19页
回归与相关分析21.docx_第14页
第14页 / 共19页
回归与相关分析21.docx_第15页
第15页 / 共19页
回归与相关分析21.docx_第16页
第16页 / 共19页
回归与相关分析21.docx_第17页
第17页 / 共19页
回归与相关分析21.docx_第18页
第18页 / 共19页
回归与相关分析21.docx_第19页
第19页 / 共19页
亲,该文档总共19页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

回归与相关分析21.docx

《回归与相关分析21.docx》由会员分享,可在线阅读,更多相关《回归与相关分析21.docx(19页珍藏版)》请在冰点文库上搜索。

回归与相关分析21.docx

回归与相关分析21

1.回归与相关分析

1.1回归分析简介

现实世界中变量之间的关系可以分成两类,一类是确定关系,这种关系可以使用函数来进行分析和描述;另一类关系是不确定关系,这种关系称为相关关系,如气温、降雨量与农作物的产量之间的关系,人的年龄与血压之间的关系等,都是不能用函数关系来表达的,但是它们之间确实存在着某种关系。

回归分析是研究相关关系的一种数学工具。

它能帮助我们从一个或几个变量去估计另一个难以确定的量。

在以前的讨论中我们遇到的都只有关于一个对象的一组样本,现在假如我们的观察对象是两个,这样就每次就可以得到一对样本观察值,这些值也都是随机变量。

我们用X,Y表示它们。

例如,考虑人的身高与体重。

如果我们用X表示身高,Y表示体重。

我们获得的第i对观察值为(Xj,yj,如果接受测量的人有n个人,则样本的容量为n。

其中n对数据可以表示如下:

XY

我们现在的目的就是要建立Y与X的关系。

其中一种常用的方法就是回归分析方法。

回归分析就是采用统计的方法估计随机变量Y与X之间的

关系式。

相关分析也是一种分析随机变量Y与X之间的关系的一种方法。

而它

着重考虑的是Y与X之间的相关程度(相关系数)与相关方式(方向、系

数),其分析结果就是两个变量之间的相关系数。

相关分析与回归分析是紧密结合的,常常一起使用。

一般说来,采用相关分析确定变量之间是否确实有相关关系存在,如果存在,则用回归分析求出变量之间的定量关系表达式。

在回归分析中,通常对我们感兴趣的变量,或需要估计的量称为因变

量,记为y。

对于随机变量y来说,如果我们要估计它,最重要的就是它的均值。

显然,由于y是一个随机变量。

因此

yE(y)

(1)

其中,E(y)是y的数学期望,£是随机误差,它是不可预测的。

即随机变量y的等于它的均值加上一个正或负的随机误差。

由于随机误差£的均值为0,因此对随机变量y的最好估计为E(y)。

但是我们并不知道总体的均值E(y),因此只能通过样本的均值来进行

估计,因此有,

yy

(2)

上式中?

表示y的估计值,y表示y的样本均值。

由于因变量y与一个或几个自变量之间存在相关关系,因此,只要给出一组y与x的样本值,就可以确定

(2)式,从而在给定x的情况下确定y的估计量?

回归分析与相关分析具有非常广泛的应用,尤其是在管理活动中。

1.2一元线性回归分析

1.2.1.一元回归分析

在进行回归分析时,我们必需知道或假定在两个随机之间存在着一定的关系。

这种关系可以用Y的函数的形式表示出来,即Y是所谓的因变量,它仅仅依赖于自变量X,它们之间的关系可以用方程式表示。

在最简单的情况下,Y与X之间的关系是线性关系。

用线性函数a+bX来估计Y的数学期望的问题称为一元线性回归问题。

即,

上述估计问题相当于对x的每一个值,假设E(y)abx,而且,y~N(abx,2),其中a,b,a2都是未知参数,并且不依赖于x。

对y作这样的正态假设,相当于设,

yabx(3)

其中~N(0,2),为随机误差,a,b,a都是未知参数。

这种线性关系的确定常常可以通过两类方法,一类是根据实际问题所对应的理论分析,如各种经济理论常常会揭示一些基本的数量关系;另一种直观的方法是通过Y与X的散点图来初步确认。

对于公式(3)中的系数a、b,需要由观察值(Xj,yj来进行估计。

如果由样本得到了a,b的估计值为a,?

则对于给定的x,a+bx的估计为?

bX,记作?

,它也就是我们对y的估计。

方程

y?

a?

b?

x(4)

称为y对x的线性回归方程,或回归方程,其图形称为回归直线。

例1:

有一种溶剂在不同的温度下其在一定量的水中的溶解度不同,现

测得这种溶剂在温度x下,溶解于水中的数量y如下表所示:

Xi

0

4

10

15

21

29

36

51

68

yi

66.7

71.0

76.3

80.6

85.7

92.9

99.4

113.

125.

6

1

这里x是自变量,y是随机变量,我们要求y对x的回归其散点图如下:

1.2.2.确定回归系数

在样本的容量为n的情况下,我们我们可以得到n对观察值为(xi,yi)。

现在我们要利用这n对观察值来估计参数a,b。

显然,y的估计值为,

在上式中a,b为待估计的参数。

估计这两个参数的方法有极大似然法和最小二乘法。

其中最小二乘法是求经验公式时最常用的一种方法,也最简单。

现在就采用这种方法。

当我们做出这一对变量观察值的散点图后,我们可以看出,我们所要求的回归直线,实际上是这样的一条直线,即,使所求的直线能够最好的拟合已有的所有点,或者说要使图上所有的点到这条直线的距离最近。

因此所要求的直线实际上就是使所有的点与这条直线间的误差最小的直线。

我们用yi表示y的样本观察值,?

表示根据回归方程所得到的y的估

计值,则估计值与实际观察值之间的误差为,

eyi?

yiabx.(5)

其总的误差,可以表示为误差的平方和的形式,

222

QG,I?

)ei(yi?

)(yiat5xi)(6)

现在要使上式取得极小值,只需令Q对a,b的一阶偏导等于0,因此,

由此可解得如下结果,

其中a,b?

就是参数a,b的无偏估计。

此外,所谓最小二乘估计,实际

上就是使误差的平方和最小的估计。

一但估计出了回归方程的系数,我们就可以在给定的x值的情况下对y进行估计,或预测。

例2:

求例1中的y关于x的回归方程。

解:

此处,n=9,有关回归方程计算所需要的数据如下:

x

y

2

x

2

y

xy

0

66.7

0

4448.89

0

4

71.0

16

5041.00

284.0

10

76.3

100

5821.69

763.0

15

80.6

225

6496.36

1209.0

21

85.7

441

7344.49

1799.7

29

92.9

841

8630.41

2694.1

36

99.4

1296

9880.36

3578.4

51

113.6

2601

12904.96

5793.6

68

125.1

4624

15650.01

8506.8

工234

811.3

10144

76218.17

24628.6

用SPSS求得的结果如下:

因此所求的回归直线方程为:

1.2.3.*参数估计量的分布

为了对前面所作的y与x是线性关系的假设的合理性进行检验,为了

求出预测值的置信区间,我们必须知道所估计的参数的分布。

1.b?

的分布:

n

(Xix)(yiy)

由于b

(XiX)2

i1

按假定,y1,y2,yn相互独立,而且已知y~N(abx,2),其中xi为常

数,所以由b?

的表达式知b?

为独立正态变量y1,y2,yn的线性组合,于是b?

n

是正态随机变量。

可以证明b?

~N(b,2/(xix)2)

i1

另外,对于任意给定的xxo,其对应的回归值yo?

bx°,由于

a?

ybx,所以可以写成,

也就是说,在xX。

处y所对应的估计值也是一个正态分布的随机变量,

可以证明,%〜N(abxo,-n"0x)22)

门/_\2

(Xix)

2.方差o2的估计:

为了估计方差,考查各个Xi处的yi与其相对应的回归值yy6(xix)与其离差y?

的平方和SSD

可以证明,其期望值为,

因此,E(SSD)/(n2)是2的无偏估计,即,

而且,其自由度为n-2,其分布为,

1.2.4.线性假设的显著性检验

现在来检验yabx,~N(0,2)这一线性假设是否合适,这也就

是检验假设,

由于

设X~N(0,1),Y~2(n),并且X与Y相互独立,则随机变量

X

t.服从自由度为n的t(student)分布,记为t~t(n)

.Y/n

因此从上面的结果可以得知统计量,

t?

b

即,

因为在假设Ho下b0,所以,在此假设下,

由此可得,如果,

或写成,

其中Sb

则在显著水平a下拒绝假设Ho:

b0,认为回归效果是显著的,也就是说y与x之间存在着线性关系yabx;若上述不等式反号,就认为回归效果不显著,回归效果不显著的原因可能有以下几种:

1.影响y的除x外,还有其它不可忽略的因素;

2.y与x的关系不是线性的,而是存在着其他的关系;

3.y与x无关。

因此,在这样的情况下,要查明原因,分别处理。

例3:

检验例2的回归效果是否显著。

取a=0.05o

解:

因为n=9所以

利用前面计算的结果,代入上式,有

nnn

注意,®?

)2(yiy)2b?

(Xix)2

i1i1i1

在此,t2(n2)t0.025(7)2.364656.58,所以拒绝H0,即认为线性回归的效果是显著的。

在线性回归的效果显著时,由(5)式可得到b的100(1-a)%勺置信区间为:

另一种进行检验假设,H°:

b0H1:

b0的方法是利用F分布。

其公式为:

其中,k表示回归方程中的系数的个数,在一元线性回归中显然只有两个系数,所以k=2,n表示样本数。

统计量F的公式可以表示成:

拒绝域为:

FF(1,n2)

1.2.5.置信区间

在利用回归分析进行预测的过程中,我们不仅需要知道预测变量的值,

往往还需要了解它的变化范围,即点估计和区间估计的问题。

对于任意给定的xxo,其对应的y的观察值的取值范围可以采用以下

方法确定:

设xx0,其对应的y值为yo,则

上式中,除Xo外,其他参数都是未知的,我们只能使用它们的估计量,

考虑随机变量,

显然,

而且?

0是各屮的线性组合,且?

0与各y是相互独立的,都是正态变量,

所以它们的差uyo?

o是两个相互独立的正态随机变量的差,因此,

由于

从而得到,

也就是,

由前面

并且可以证明丄与(n2)?

2相互独立,于是

u

即,

所以y的100(1-a)%勺置信区间为:

从上式可以看出,对于给定的样本观察值及置信度而言,当X0越是靠

近其均值x,预测区间的宽度就越是窄小,预测也就越精确。

若将上式记

为(?

0(X。

)),对于给的样本观察值,作出曲线,

1.2.6.相关分析

在前面的推导过程中我们假定x是一确定的量,它与随机变量y之间存在线性关系,因此我们可以得到线性回归模型。

现在,如果x,y都是随机变量,那么这两个随机变量之间究竟有没有

关系,这就是相关分析所要做的工作。

1.相关系数

如果x,y这两个随机变量之间确实有线性关系存在,则我们可以用一个所谓的相关系数P衡量这种关系。

P是一个介于-1和+1之间的一个数,如果对一对随机变量x,y而言,其p值接近+1或-1则说明它们之间存在着很强的相关关系。

在两个随机变量的情况下,我们可以将其分布视为联合分布,即这时

的分布在X轴上是x的分布,在Y轴上是y的分布,其联合分布则是三维空间上的一个曲面。

在这样的情况下,我们可以用类似于方差的定义,来定义这两个随机

变量的协方差。

此外,我们知道,

现在可以给出相关系数的定义,

如果我们用样本的协方差来估计总体的协方差,则公式稍有不同,即

例:

现在需要研究人们用于公共交通的支出占其总收入的情况,为此收集到如下数据:

X(1000)

y

2

x

2

y

xy

13

70

169

4900

910

18

55

324

3025

990

9

100

81

10000

900

25

40

625

1600

1000

36

15

1396

225

540

19

20

361

400

380

工120

300

2856

20150

4720

在此,我们只能利用样本的相关系数来估计总体的相关系数,由

因此,

对于相关系数,我们两样可以进行假设检验,也就是说检验变量x,y

之间的相关程度,这对于实际工作是非常重要的,也是我们进行回归分析的前提条件。

这时的假设为,

拒绝域为:

如果tt(n2)或tt(n2)就拒绝假设H0。

;2:

-2

其中统计量:

t『

J(1r2)/(n2)

例:

续前例。

假定0.05。

解:

由于t0.025(4)2.776,所以拒绝域为,若t>2.776或t<-2.776则拒

绝假设H0o

在此例中,

由于t=-3.03<-2.776所以拒绝原假设,接受备择假设,即认为人们的

收入与用与公共交通方面的支出确实存在负相关的关系。

注意,这种假设检验只能检验P=0的情况,而不能检验p等于不为0

的某个数。

2.可决系数

上式表明,任何一个点的实际观察值与其均值之差等于

所示

均值的差

在进行回归分析的过程中,对于每一个样本点来说,

y的估计值与

(1

(2)(3

yiy(?

y)(y?

)式的右边芍以看到,第一项?

iy是利用回归方程得到的估计值

与其均值之差,这一部分是Y与X之间有规律肾E分,是可以预测的部分,

而第二项Vi?

是实际值与估计值之差,这一部分是Y与X之间没有规律

的部分,是回归分析所造成的误差,也就是无法解释或预测的部分。

将此式对所有样本点求和,可以等到如下结果,

因此,可以得到如下可决系数,

此式表明,在Y与X的关系中,可以利用回归方程解释的部分所占的百分比,显然其数值越大,Y与X的关系越是确定。

可决系数也可以用下式来解释,其道理同上,

3.可决系数与相关系数的关系

正如我们用同样的符号所表示的一样,它们实际上是一回事。

现在简

单证明如下,

在可决系数中,

所以,

可决系数与相关系数的关系可以用来判断Y与X之间的关系,值得注

意的是,如果可决系数或相关系数的值较小,并不能说明Y与X没有关系,只能说明它们之间没有线性关系。

如果如果可决系数或相关系数的值较大,只能说明这两个量之间确实存在线性关系,但是并不一定就是因果关系,对于因果关系的认定,只能通过定性分析来解决。

例如,经相关性检验发现美国的一座城市的犯罪率与该市的赌场所雇佣的员工人数有很强的相关关系,如果据此就断定是因为赌场幵多了所以犯罪人数就增多是不合适的,因为实际情况可能是,由于旅游业的发展使赌场雇佣的员工才多,同时,由于流动人口的增多,使犯罪率也随之上升。

因此采用关闭赌场的方式来解决问题未免过于简单。

1.2.7.—元非线性回归

由于在现实中,线性关系在存在毕竟有限,所以我们面对的大量问题都是非线性的问题,在这种情况下,我们希望能将一元线性回归的结论用于非线性的场合,这时就需要做一些变换和处理工作。

对于下面这些形式的非线性函数我们可以将其转换成线性函数来处

理,

女口,zABx

对上式两边取对数,有

令ylogz,则有

其中,alogAblogB

此类函数还有,

ya—等。

w

此外,在实际工作中有一个函数非常重要,可能会在许多场合出现,

这就是logistic函数,

其中K为变量Y的上限值,这时可以采用如下方法进行变换

当然,在SPSS中,可以直接处理。

1.3多元回归分析

一元回归的方法很容易就可以推广到多元的问题。

这在实际工作出是经常出现的,因为对于一个事物来说,影响它的因素是多方面的,当这些因素中每一个都很重要,或者说有几个是很重要的,而不是只有一个因素最重要,这时我们就需要用到多元回归分析的方法。

如在预测销售量时,在最简单的情况下,可以认为它只与你的广告预算有关,但在实际工作中,如果要比较准确地预测销售量,可能还需要考虑其他因素,如,季节因素、库存情况、销售能力、生产率等。

1.3.1.多元回归模型

一般情况下,多元线性回归模型为

其中,y是因变量,xi为自变量,E(y)ab1x1bkxk是用来预测的部分。

£为随机误差。

回归系数b确定了自变量x对因变量的大小的贡献。

注意,Xi可能本身为高阶项,如X2可能就是X;0

由于多元回归模型中包含的项数非常多,因此实际模型的结构可能非常复杂多变0如一支香烟中所散发出的一氧化碳的数量级y可能是下列自变量的函数:

X1=焦油含量

x2=x1

X3二尼古丁含量

x4sint,其中t为时间变量。

对于多元回归分析问题,我们也基本可以按照一元回归问题的处理方式来处理。

即按下列步骤进行,

1.收集样本数据,即一系列关于y,Xi,X2,,Xk的值;

2.假设模型的具体形式,选择进入模型的变量;

3.估计未知参数bi;

4.确定随机误差£的分布并估计其方差C2;

5.检验模型的适用性;

6.如果模型可用,则在给定自变量值的情况下估计因变量的均值。

以上步骤只是一个大致方法,在应用时会有许多实际问题,尤其是其中的第二步,关于模型和变量的确定问题。

这里我们先假设模型的形式已经确定。

1.3.2.多元回归模型参数估计

1.回归系数的估计

上面已经给出了多元回归模型的一般形式,

其中随机误差£的均值为0,方差为C2。

对于回归系数无法得到,所以只能用其估计值,因此估计模型为,

其中回归系数的估计值a,E,,?

也同样采用最小二乘法进行估计。

令误差的平方和对各回归系数的一阶偏导等于0,其中误差的平方和为,

具体计算比较复杂,一般都是通过统计软件计算得到。

2.方差c2的估计:

其中,k表示回归方程中的系数的个数,n表示样本数

1.3.3.回归系数假设检验

1.单个系数的检验

对于回归系数bi,b2,bn中的每一个可以单独进行是否为0的假设检

验,这也就是检验假设,

bi?

这时,统计量为t—,其中s.’?

$1厂X77

(xx)

ji

?

拒绝域为,t一tAn(k1)]

选2

其中,k表示回归方程中的系数的个数,n表示样本数。

如果上述不等式确实成立,则在显著水平a下拒绝假设H0:

b0,认为变量x的回归效果是显著的,也就是说y与x之间存在着线性关系;若上述不等式反号,就认为x回归效果不显著。

2.整个模型的检验

在幵始时,我们提到,对于已经建立的模型,在实际使用之前要检验

其适用性,或者说要检验用所得到的模型是否能够充分地对因变量y进行

预测。

尽管我们上面已经对模型中的每一个回归系数都进行了t假设检验,但这还不够。

因为,作为一个自变量,它可能与因变量的回归效果确实是显著的,然而,作为一个多变量的模型整体来说,可能回归效果并不显著。

其原因可能是多方面的,最简单的如共线性问题。

总之,我们还需要对模型整体的回归效果进行检验。

检验假设,

Hi:

回归系数d,b2,bn中至少有一个不等于0

统计里为,

2

F(?

iy)/k

F2

(yy)/(nk1)

其中,k表示回归方程中的系数的个数,在一元线性回归中显然只有两

个系数,所以k=2,n表示样本数。

拒绝域为,FF(k,nk1)

即,当上述不等式成立时,则认为原假设不成立,或者说整个模型的回归效果是显著的。

F的公式可以表示成:

其中R为回归方程的可决系数。

1.3.4.多元回归可决系数与置信区间

1.可决系数

在多元回归的情况下,为了表明因变量与自变量之间的相关程度或说明可用回归方程对变量解释的程度,我们可以与一元回归类似的方式构造可决系数氏,同样,其表达式仍然是,

此式表明,在Y与X的关系中,可以利用回归方程解释的部分所占的

百分比,显然其数值越大,Y与X的关系越是确定。

可决系数也可以表示

成以下形式,其道理同上,

注意,在多元回归的情况下,可决系数R2只有在样本所包含的数据的数目远远多于回归系数的数目时才能用可决系数R2来衡量因变量与自变量之间的线性关系。

在许多统计软件中常常会出现调整后的可决系数(adjustedmultiplecoefficientofdetermination),其表达式为,

由此可以看出,所谓调整实际上就是将样本数目与回归系数的数目同时考虑进去。

一般说来,调整后的要比调整前的要小。

如果样本数目n越大,则调整前后的数值越是接近。

注意,可决系数并不不是判断模型的有效性的唯一指标,更恰当的指标应该是F检验值。

2.置信区间

在一元线性回归中,利用回归模型我们可以求出给定xx0时的因变量y的估计值?

o,同时还得到了估计值的置信区间。

为了得到置信区间,我们必须知道每一个回归系数及估计值的方差的分布。

在多元回归模型中,同样可以给出估计值的置信区间表达式,但是过于复杂,这里不再给出来。

所幸的是,在较大型的统计软件中会给出这个数值。

1.3.5.多元回归模型与变量的确定

在多元回归分析中,这是一个最复杂的问题,因此也需要大量的实践

经验。

首先我们看一下模型的确定问题。

1.模型的确定

在进行回归分析之前,我们首先需要进行有关问题的定性分析,确认哪些变量之间存在关系,然后收集有关样本数据。

有了样本数据以后,可以将每一自变量与因变更的散点图作出来,确认它们之间确有关系,如果这种关系是非线性的,则需要通过各种转换方式将其转换成线性关系。

这样我们就能初步确定进入模型的变量的形式,即确定,

注意,最终用于实际预测的模型中变量数目可能会与此不同,一般说来,有些变量会被筛选掉。

1.4SPSS与回归分析

希望以上资料对你有所帮助,附励志名言3条:

1、要接受自己行动所带来的责任而非自己成就所带来的荣耀。

2、每个人都必须发展两种重要的能力适应改变与动荡的能力以及为长期目标延缓享乐的能力。

3、将一付好牌打好没有什么了不起能将一付坏牌打好的人才值得钦佩。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2