回归预测法PPT文件格式下载.ppt
《回归预测法PPT文件格式下载.ppt》由会员分享,可在线阅读,更多相关《回归预测法PPT文件格式下载.ppt(86页珍藏版)》请在冰点文库上搜索。
2)过去和现在的数据规律,能够反映未来;
3)数据的分布确有线性趋势,可采用线性解;
如不是线性趋势,则可用非线性解。
回归预测法的种类1)一元回归预测(古典线型回归)。
一元回归预测就是用相关分析法分析一个自变量和一个因变量之间的相关关系,并进行预测。
例如,从居民货币收入预测某种耐用消费品的销售量;
从工人劳动生产率预测利润额;
从施肥量预测农作物的产量。
2)多元回归预测。
多元回归预测就是分析因变量与若干个自变量的相关关系,建立多元回归方程,从若干自变量的变化去预测因变量的变化程度和未来的数量状况。
例如,从施肥量、气温、降雨量去预测某种农作物的收获率;
从商业企业的职工劳动生产率和流通费率去预测利润率等等。
3)自回归预测。
自回归预测就是用一个时间数列的因变量数列与向过去推移若干时期的一个或几个自变量数列进行预测。
例如对按月编制的时间数列,用今年112月的数列作为因变量数列,用以前某月至某月的数列作为自变量数列,计算其相关系数,建立回归方程进行预测。
还可分为线性回归方程预测和非线性回归方程预测两种。
a.影响GDP增长的因素有哪些(投资、消费、出口、货币供应量等)?
b.GDP与各种因素关系的性质是什么?
(增、减)c.各影响因素与GDP的具体的数量关系?
d.所作数量分析结果的可靠性如何?
e.今后的发展趋势怎么样?
例1:
研究中国的GDP增长,4.1实例引入,例2:
中国家庭汽车市场,a:
汽车市场状况如何(销售量)b:
影响汽车销售量的主要因素是什么(收入、价格、道路状况等)?
c:
各种因素对汽车销售量影响的性质怎样(正、负、无)?
d:
各种因素影响汽车销量的具体数量程度?
e:
以上分析所得结论是否可靠?
f:
今后发展的趋势怎样?
以上问题的共性,提出所研究的问题分析影响因素(根据经济理论、实际经验)分析各种因素与所研究的现象的相互关系(需要科学的数量分析方法)分析所研究的现象与各种影响因素的数量关系(需要运用统计方法)分析和检验所得数量结论的可靠性;
测算所研究经济问题的发展趋势(预测未来),一、变量:
在不同时间、空间有不同状况,取不同数值的因素称为变量。
其分类为:
1、被解释变量(因变量),变量、参数、数据,2、解释变量(自变量),3、滞后变量,被解释变量(因变量):
模型中要分析研究的变量,解释变量(自变量):
说明因变量变动原因的变量,例:
收入决定模型(其中:
消费支出C、投资I、进口IM、税收T、收入Y、政府支出G、出口E),其中:
消费支出C、投资I、进口IM、税收T、收入Y是被解释(内生)变量政府支出G、出口E、是解释变量(通过计划、预算来确定),(有两个滞后变量,作用视同解释变量),二、数据,1、时间序列数据:
按照时间先后顺序排列的统计数据(例:
时期、时点指标),3、混合数据:
既有时间序列数据,又有截面数据(例:
居民收支调查中收集的对各个固定调查户在不同时期的调查数据)。
2、截面数据:
是在同一时间,不同空间的某个指标组成的数列(如:
工业普查数据、人口普查数据、家计调查数据等)。
4、虚拟变量数据:
仅取0和1两个变量值的,模型建立步骤,可以运用计量方法研究这类问题,一般分为四个步骤:
4.1模型设定4.2估计参数4.3模型检验4.4模型应用,研究过程,有关理论,实践活动,搜集统计数据,设定计量模型,参数估计,模型检验,预测,政策评价,模型修订,结构分析,符合,不符合,是否符合标准,模型应用,4.2模型设定,4.1.1经济模型:
模型:
对经济现象或过程的一种数学模拟。
设定(Specification):
把所研究的经济变量之间的关系用适当的数学关系式表达出来。
(例:
消费函数y=a+bx),4.1.2构成计量经济模型的要素(例:
消费函数y=a+bx+u)*经济变量(y,x)*经济参数(a,b,待估计)*随机扰动项u模型构成要素之说明(例:
消费函数y=a+bx+u)*经济变量(y,x):
不同时间、不同空间的表现不同,取值不同,可以观测。
*经济参数(a,b):
比较稳定的因素,决定经济的特征。
参数是计量经济模型中表现经济变量相互依存程度的因素,是一个相对稳定的量,4.1.3设定模型的要求,要有科学的理论依据;
选择适当的数学形式(单方程还是多方程,线性还是非线性的选择。
方程应是有解的,形式尽可能简单);
模型要兼顾真实性和实用性;
包含随机扰动项;
方程中的变量要具有可观测性;
4.3建模步骤,经济理论或假说的陈述;
建立数学(数理经济)模型;
建立统计或计量经济模型;
收集处理数据;
模型的参数估计;
检验来自模型的假说现实意义检验;
检验模型的正确性模型的假设检验;
模型的运用预测、结构分析、政策模拟等,4.4估计参数,一般地,参数是未知的,不可直接观测。
参数要通过样本数据,选择适当的方法加以估计。
(如何通过样本数据估计参数是计量经济学的核心内容)参数估计值:
所估计的参数的具体数值参数估计式:
用未知的样本数据表示的待估计参数表达式。
参数估计的常用方法:
普通最小二乘法(OLS),极大似然估计法(ML)等。
4.5模型检验,检验是对模型和所估计的参数加以评定,判断在经济理论上是否有意义,在统计上是否显著。
为什么要进行检验?
理论依据可能不充分;
统计数据或其他信息可能不可靠样本可能较小,结论只是抽样的某种偶然结果。
可能违反计量经济估计的基本假定。
模型的检验方式*理论意义,现实意义检验:
是否与理论、现实相符;
*统计推断检验:
检验参数值是否为抽样的偶然结果;
*计量检验:
是否符合基本假定;
*预测检验:
将模型预测结果与现象运行的实际对比。
4.6模型应用,结构分析:
分析变量之间的数量比例关系,如边际分析、弹性分析(变化率之比)、乘数分析(变化量之比)、比较静力学分析预测:
包含动态预测和空间预测。
(对非稳定发展的过程无能为力,滞后于理论和现实的模型在应用中也会遇到障碍。
)政策评价:
用模型对政策方案作模拟测算,对政策方案作评价。
模型形式a线性模型b非线性模型:
双对数模型、半对数模型、倒数模型非线性模型一般都要转化为线性模型来估计。
1、线性模型(对变量、参数),2、非线性模型(被解释与解释变量之间、被解释变量与参数之间),例如:
(1、2可线性化),
(1)多项式函数,常见的可线性化模型:
(2)双对数方程,基本形式(幂函数):
双对数方程的斜率参数可以衡量因变量Y关于解释变量X的弹性(表示:
当X每变动1%时,因变量Y平均变动的百分比)。
事实上,有,(3)半对数方程,在第一个方程中斜率参数等于Y的相对变动与X绝对变动之比。
模型叫增长模型,它可以描述某种经济现象随着时间变化而变动的趋势。
第二个半对数方程的斜率系数表示当自变量发生一个单位的相对变动时,引起的因变量Y的平均绝对变动。
(4)倒数变换模型,基本形式:
注:
,Y随着X增大而非线性地增大,最终接近一条直线,Y随着X的增加而非线性地减少。
重要特点:
被解释变量Y存在极限。
例:
若Y为平均成本,X为产量,则平均成本Y随着产量增加而不断下降,但它决不可能等于或小于。
4.7回归实例,一元线型回归分析,一元线型回归(古典线型回归)预测是指成对的两个变量数据分布大体上呈直线趋势时,运用合适的参数估计方法,求出一元线性回归模型,然后根据自变量与因变量之间的关系,预测因变量的趋势。
很多社会经济现象之间都存在一一对应的相关关系,因此,一元线性回归预测有很广泛的应用。
比如,家庭的消费支出与家庭收入之间存在很强的相关关系,甚至是一种线型关系。
线性回归模型及其假定一般地,一元线型回归模型具有如下形式:
yi=+xi+i,i=1,n,其中y是因变量或称为被解释变量,x是自变量或称为解释变量,i标志n个样本观测值中的一个。
构成古典线性回归模型的一组基本假设为:
1.函数形式:
yi=+xi+i,i=1,n,2.干扰项的零均值:
对所有i,有:
Ei=0。
3.同方差性:
Vari=2,且是一个常数。
4.无自相关:
对所有ij,则Covi,j=0。
5.回归量和干扰项的非相关:
对所有i和j有Covxi,j=0。
6.正态性:
对所有i,i满足正态分布N(0,2)。
用最小二乘法(OLS)进行参数估计得到的估计表达式为:
在估计了参数之后,就可以得到一元线型方程,这样带入自变量x的值,就可以进行对因变量y的预测。
在预测之前,还需要对估计结果作假设检验:
1、R检验相关系数R:
衡量自变量与因变量关系密切程度的指标,表示自变量解释了因变量变动的百分比。
可见相关系数R取值于01之间。
一般在实际预测时,|R|0.7就认为因变量与自变量高度相关,x是y的主要影响因素;
0.3|R|0.7,认为相关;
|R|0.3,弱相关,不能认为x是y的主要影响因素。
如果要用一元线型回归方程来预测,一般要求R要大于0.7。
2、t检验T检验是用来检验一元线型回归模型是否成立的一种方法。
通过构造统计量T,并给定一定的显著性水平,可以计算:
通过查表,如果,则可以认为回归模型显著,否则回归模型不成立。
比如,在95%显著程度下,并且n很大时,后者为1.96。
3、F检验通过构造统计量F,并给定一定的显著水平,计算统计量F:
查F分布表,可得如果,则一元线型回归模型成立,否则线型回归不显著。
一元线型回归预测,用回归方程计算出来的预测值,是一个具体的数,称为点预测。
点预测值是一个平均数,实际值可能高于或低于它,还必须用一定的机率保证其置信区间的范围,也就是区间估计。
为了计算置信区间,就要计算预测值的标准误差。
其计算公式如下:
根据概率论证明,在数据较多时置信区间为:
置信度为68.3;
两个S为95.45;
三个S为99.7。
扩大置信区间,可以增加预测的可靠程度;
但如果置信区间很宽,就会使预测结果没有多大意义。
根据经验,企业的商品销售额同广告费支出之间具有相关关系。
某企业1990年至1999年的商品销售额和广告费支出的资料如表12-1所示。
某企业商品销售额与广告费支出表,广告费支出(万元),商品销售额(百万元),(资料来源:
徐国强著:
管理统计学,上海财经大学出版社1998),预测该企业2002年的广告费支出为35万元,要求在95%的概率下预测该年的商品销售额。
【分析提示】1)进行相关分析。
在坐标系上将广告费支出和商品销售额的数据标出,形成散点图,可以发现呈现直线趋势。
从而判定二者呈一元回归。
2)建立回归方程。
回归方程为:
,关键是求参数a、b的值。
根据表12-1计算的有关数据,利用最小平方法可以求出:
所求回归方程是:
3)进行检验。
(1)相关系数:
取显著性水平=0.05,df=n-2=8。
查相关系数临界值表得:
因为,,说明广告费支出与商品销售额存在很强的正相关关系。
(2)决定系数,检验和F检验.,决定系数检验和F检验都是用来检验回归方程线性关系的显著性,二者在检验原理上大体相同,均借助了方差分析:
其中:
:
总变差;
剩余变差;
回归变差。
决定系数,利用回归变差、点变差、总变差的比重说明回归直线的代表性,若这个比例越大,则说明x与y之间关系越密切,回归直线代表性越好。
一般地,的取值在01之间。
F检验法将自变量作为一个整体来检验与因变量之间的线性关系是否显著。
其计算为:
取显著性水平=0.05,df1=1,df2=n-2=8。
查F分布表得:
因为F,,说明广告费支出与商品销售额线性关系显著。
这与决定系数,检验结论一致。
百万元。
即:
2002年的商品销售额可望达到49.595百万元。
4)进行预测。
(1)点预测。
2002年的广告费支出预计为35万元。
万元代入回归方程:
(2)区间预测。
计算估计标准误差,,df=8,查t分布表,得,即:
因为,当广告费支出达到,万元时,商品销售额的预测区间为:
若以95%的把握程度预测,当广告费支出达到35万元时,商品的销售额在45.864-53.326百万元之间。
现实生活中引起被解释变量变化的因素并非仅只一个解释变量,可能有很多个解释变量。
例如,产出往往受各种投入要素资本、劳动、技术等的影响;
销售额往往受价格和公司对广告费的投入的影响等。
所以多元线性模型解释变量个数2更为常见,二、多元线性回归模型及其假定条件,模型的建立,在实际问题中,有时一个变量受到一个或多个解释变量影响。
这时就需要建立多元回归模型进行研究。
假定变量yt与k个变量xjt,j=1,k1,存在线性关系。
多元线性回归模型表示为:
其中yt是被解释变量(因变量),xjt是解释变量(自变量),ut是随机误差项,i,i=0,1,k-1是回归参数(通常未知)。
这说明xjt,j=1,k,是yt的重要解释变量。
ut代表众多影响yt变化的微小因素。
当给定一个容量为的样本,样本观测值为得,当给定一个容量为,得:
为保证用OLS法得到最优估计量,该回归模型应满足如下假定条件。
假定随机误差项向量u是非自相关的,同方差的。
其中每一项都满足均值为零,方差为,相同且为有限值,即且,假定解释变量与误差项相互独立,即,假定解释变量之间线性无关。
其中表示矩阵的秩。
假定解释变量是非随机的,且当时,多元线性回归模型的参数估计,1.普通最小二乘法(OLS)最小二乘法(OLS)的原理是通过求残差(误差项的估计值)平方和最小确定回归参数估计值。
这是求极值问题。
用Q表示残差平方和,求其最小值条件下的回归参数的估计值。
得到下列方程组,求参数估计值的实质是求一个k+1元方程组,
(2)正规方程,最小二乘法的矩阵表示,(3)正规方程的结构,被解释变量观测值nx1解释变量观测值(含虚拟变量nx(k+1))设计矩阵(实对称(k+1)x(k+1)矩阵)正规方程右端(k+1)x1回归系数矩阵(k+1)x1高斯乘数矩阵,设计矩阵的逆残差向量(nx1)被解释变量的拟合(预测)向量nx1,(4)最小二乘估计量的性质,线性(估计量都是被解释变量观测值的线性组合)无偏性(估计量的数学期望=被估计的真值)有效性(估计量的方差是所有线性无偏估计中最小的),因为X的元素是非随机的,(XX)-1X是一个常数矩阵,由上式知是Y的线性组合,为线性估计量,具有线性特性。
2)无偏特性,1)线性,3)有效性,具有最小方差特性。
(5)随机误差项的方差的估计量,若已知,则定义则上式写为矩阵M有如下性质:
存在为阶的满秩阵因此,必须有,此为最小样本容量,满足基本要求的样本容量。
一般经验认为:
n30或者n3(k+1)才能满足模型估计的基本要求。
n3(k+1)时,t分布才稳定,检验才较为有效,(6)样本容量问题,样本是一个重要的实际问题,模型依赖于实际样本。
获取样本需要成本,企图通过样本容量的确定减轻收集数据的困难。
最小样本容量:
满足基本要求的样本容量,回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归。
尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及模型整体的显著性检验。
多元线性回归模型的统计检验,
(1)拟合优度检验,总离差平方和的分解,,,,,注意英文缩小的含义TSS:
TotalSquareSum/总离差平方和RSS:
RegressionSquareSum/回归平方和ResidualSquareSum/残差平方和ESS:
ErrorSquareSum/误差平方和(残差平方和)ExplainSquareSum/解释平方和(回归平方和)平方和分解的意义TSS=RSS+ESS被解释变量Y总的变动(差异)=解释变量X引起的变动(差异)+除X以外的因素引起的变动(差异)如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;
否则,X不能很好地解释Y。
(2)样本可决系数,样本可决系数是拟合优度评价的最重要指标,残差的标准差也能作为拟合优度评价的参考指标样本可决系数(ThecoefficientofDetermination)R2随机项的方差2的最小二乘估计量,相关系数计算方法与样本决定系数一样含义有所不同:
样本可决系数是判断回归方程与样本观测值拟合优度的一个数量指标,隐含的前提条件是X和Y具有因果关系相关系数是判断两个随机变量线性相关的密切程度,不考虑因果关系。
调整的可决系数(adjustedcoefficientofdetemination),增加解释变量时,很可能增加R2,容易引起错觉,认为只要在回归模型中增加解释变量就可以了,因此考虑对R2进行修正思考:
调整的可决系数能否为负?
如果为负,说明什么问题?
注意TSS、ESS、RSS的自由度:
TSS(离差平方和):
n-1;
RSS(残差平方和):
n-k-1;
ESS(回归平方和):
k。
(3)赤池信息准则和施瓦茨准则,为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有赤池信息准则和施瓦茨准则赤池信息准则的定义为:
施瓦茨准则的定义为:
上面的两个准则均要求仅当所增加的解释变量能够减少AIC和SC的值时,才允许在模型中增加该解释变量,(4)方程整体线性的显著性检验(F检验),检验估计的回归方程作为一个整体的统计显著性,(5)参数估计量的t检验,检验回归方程中每个解释变量的统计显著性,参数的置信区间为,容易推出:
在(1-)的置信水平下i的置信区间是,其中,t/2为显著性水平为、自由度为n-k-1的t分布的临界值。
若拒绝认为与0有显著的差异或者根据查t分布表的概率p,若拒绝,(6)回归模型统计检验的步骤,查看拟合优度,进行F检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;
否则进行下一步查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量的系数显著地不为0,该自变量对因变量作用显著;
否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。
但是,一次只能将最不显著(相应概率最大)的删除。
每次删除一个,直至全部显著。
多元线性回归模型的预测,对于模型,给定样本以外的解释变量的观测值X0=(1,X01,X02,X0k),可以得到被解释变量的预测值:
它可以是总体均值E(Y0)或个值Y0的预测。
但严格地说,这只是被解释变量的预测值的估计值,而不是预测值。
为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信区间。
1.E(Y0)的置信区间,易知,容易证明,于是,得到(1-)的置信水平下E(Y0)的置信区间:
其中,t/2为(1-)的置信水平下的临界值。
取随机扰动项的样本估计量,可得t的方差的估计量,2.Y0的置信区间,如果已经知道实际的预测值Y0,那么预测误差为:
容易证明,e0服从正态分布,即,构造t统计量,可得给定(1-)的置信水平下Y0的置信区间:
取随机扰动项的样本估计量,可得的方差的估计量,案例:
中国税收增长的分析提出问题改革开放以来,随着经济体制改革的深化和经济的快速增长,中国的财政收支状况发生很大变化,为了研究影响中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增长趋势,需要建立计量经济模型。
理论分析影响中国税收收入增长的主要因素可能有:
(1)从宏观经济看,经济整体增长是税收增长的基本源泉。
(2)社会经济的发展和社会保障等都对公共财政提出要求,公共财政的需求对当年的税收收入可能会有一定的影响。
(3)物价水平。
中国的税制结构以流转税为主,以现行价格计算的GDP和经营者的收入水平都与物价水平有关。
(4)税收政策因素。
以各项税收收入Y作为被解释变量以GDP表示经济整体增长水平以财政支出表示公共财政的需求以商品零售价格指数表示物价水平税收政策因素较难用数量表示,暂时不予考虑,建立模型,模型设定为:
其中:
各项税收收入(亿元)国内生产总值(亿元)财政支出(亿元)商品零售价格指数(%),数据来源:
中国统计年鉴其中:
各项税收收入(亿元)国内生产总值(亿元)财政支出(亿元)商品零售价格指数(%),数据收集,假定模型中随机项满足基本假定,可用OLS法估计其参数。
具体操作:
用EViews软件,估计结果为:
参数估计,模型估计的结果可表示为,显著性检验,F检验:
针对,取查自由度为和的临界值。
由于应拒绝,说明回归方程显著,即“国内生产总值”、“财政支出”、“商品零售物价指数”等变量联合起来确实对“税收收入”有显著影响。
本模型中所估计的参数的符号与经济理论分析一致,说明在其他因素不变的情况下,国内生产总值每增加1亿元,平均说来税收收入将增加220.67万元;
财政支出每增加1亿元,平均说来税收收入将增加7021.04万元;
商品零售物价指数每增加