spss线性回归分析.ppt
《spss线性回归分析.ppt》由会员分享,可在线阅读,更多相关《spss线性回归分析.ppt(87页珍藏版)》请在冰点文库上搜索。
,第十章线性回归分析过程,第一节回归分析概述,1.回归方程,回归分析是处理变量x与y之间统计关系的一种统计方法和技术。
如果要由x预测y的值,就要利用x与y的观察值,即样本观测值(x1,y1),(x2,y2),(xn,yn)来建立一个公式,当给定x值后,就代入此公式中算出一个y值,这个值就称为y的预测值。
如何建立这个公式?
1.绘制散点图2.建立线性函数:
y=+x,2.建立实际问题回归模型的过程,一、根据研究的目的,设置指标变量二、搜集整理统计数据三、确定理论回归模型的数学形式四、模型参数的估计五、模型的检验与修改六、回归模型的运用,具体(社会经济)问题,设置指标变量,搜集整理数据,构造理论模型,估计模型参数,模型检验,模型运用,经济变量控制,经济因素分析,经济决策预测,修改,建立实际问题回归模型过程,第一步:
绘制散点图选择估计模型,线性模型,分段模型,曲线模型,第二步:
建立回归方程,线性方程式y=+x中的参数,还不知道,这就需要由样本数据来进行估计,估计出,的值后,以估计值分别代替线性方程式中的,得到方程这个方程就称为回归方程。
这里因为因变量y与自变量x的关系呈线性关系,因此我们也称上述方程为线性回归方程,是线性回归方程所画出的直线在y轴上的截距,为直线的斜率,它们分别被称作回归常数与回归系数。
第二节一元线性回归,一元线性回归是描述两个变量之间统计关系的最简单的回归模型。
例1假定一保险公司希望确定居民住宅火灾造成的损失数额与该住户到最近的消防站的距离之间的相关关系,以便准确地确定出保险金额,表1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。
一、根据研究的目的,设置指标变量,试验指标:
火灾损失试验因素:
距离消防站的距离因此建立两个变量:
x距离消防站的距离y火灾损失,二、获取相关数据三、确定理论回归模型的数学形式,1.判断x变量与y变量之间的关系是否为线性相关关系?
判断方法:
1)散点图2)相关系数法2.如果是显著线性相关关系,可以选择一元回归方程做为理论回归模型。
1)绘制散点图,线性相关,线性回归模型,2)相关系数,2.一元线性回归模型的数学形式,参数的估计,(xi,yi),四、模型参数的估计,应用Spss软件进行回归参数的估计,1、执行AnalyzeRegressionLinear命令,打开对话框,
(1)从源文件量清单中选择一个数值型变量移入Dependent框中,选择一个变量作为自变量移入Independent框中
(2)点击OK,多元线性回归模型,一、多元线性回归模型的一般形式,二、多元线性回归方程的解释,以p2为例。
在建立空调机销售量的预测模型时,用y来表示空调机的销售量,用x1表示空调机的价格,用x2表示消费者可用于支配的收入。
则可以建立二元线性回归模型:
三、回归参数的估计,回归参数可以应用普通最小二乘估计。
具体计算可以通过spss软件进行。
未标准化回归方程为:
y=35316.885+6.696x1+0.097x2标准化回归方程为:
y=0.809x1+0.18x2,四、模型的检验与修改,4.1相关系数的显著性检验4.2F检验4.3t检验4.4样本决定系数4.5残差分析,4.1相关系数的显著性检验,由于一元线性回归方程讨论的是变量x与y之间的线性关系,所以我们可以用变量x与y之间的相关系数来检验回归方程的显著性。
当r=0时,说明变量之间不存在线性相关关系;当0r1时,说明变量之间存在一定程度的正相关关系;当-1r0时,说明变量之间存在一定程度的负相关关系;当r=1或r=-1时说明变量之间完全正相关或完全负相关。
设总体X和Y的相关系数为r,则检验的原假设和对立假设为:
其中零假设表示:
假设变量之间不存在线性相关关系。
检验时采用的统计量为:
4.2回归方程的显著性检验,检验因变量与所有自变量之间的线性关系是否显著,是否可以用线性模型来描述因变量和自变量之间的关系。
也就是检验所有回归系数是否同时与零无显著差异。
应用F检验法加以检验。
注:
检验是否可以用回归方程方法进行模型估计,也就是回归方程是否有效?
回归方程的显著性检验F检验,F检验是根据平方和分解式,直接从回归效果检验回归方程的显著性。
F检验,总平方和反映因变量y的波动程度或称不确定性,在建立了y对x的线性回归后,总平方和SST就分解成回归平方和SSR与残差平方和SSE这两个组成部分,其中SSR是由回归方程确定的,也就是由自变量x的波动引起的,SSE是不能用自变量解释的波动,是由x之外的未加控制的因素引起的。
这样,总平方和SST中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE。
这样,回归平方和SSR越大,回归效果就越好,可以据此构造F检验统计量:
在零假设成立的情况下,F统计量服从F分布,第一个自由度为1,第二个自由度为n2,即FF(1,n2)。
决策的规则是:
对于给定的显著水平,若FF(1,n2)就拒绝原假设。
回归平方和SSR841.766,残差平方和SSE69.751总平方和SST841.76669.751911.517SIG=0.0000.05,拒绝原来的假设,表示所有的回归系数不同时为0,也就是说,回归方程总体达到显著程度,即回归方程是有效的。
5.3t检验,回归方程显著性检验只能检验所有系数是否同时与零有显著性差异。
如果检验出所有回归系数不同时为零,仍然不能保证方程中仍存在与零无显著差异的回归系数,也就是说不能保证所有回归系数同时不为零。
回归系数的显著性检验就是要检验是否所有自变量xi对因变量y的影响程度均显著。
如果原假设成立,则因变量y与自变量x1之间并没有真正的线性关系,也就是说自变量x1的变化对因变量y并没有影响。
构造的t检验统计量为:
SPSS统计结果中对回归系数是否显著为0的t检验,SPSS统计结果中对多元回归系数是否显著为0的t检验,5.4回归方程的拟合优度检验,就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。
一般用判别系数R2实现。
因变量总的变差平方和由自变量引起的因变量变差的平方和由其他随机因素引起的因变量变差的平方和用数学语言表示为:
式中:
由自变量引起的变差平方和能够由回归方程表示,称为回归平方和,由其他随机因素引起的变差平方和无法用回归方程表示,称为残差平方和或剩余平方和。
样本决定系数,由回归平方和与残差平方和的意义我们知道,如果在总的离差平方和中,回归平方和所占的比重越大,则线性回归效果就越好,这说明回归直线与样本观测值拟合优度就越好;如果残差平方和所占比重大,则回归直线与样本观测值拟合得就不理想。
这里把回归平方和与总离差平方和之比定义为样本决定系数,记为:
性质1:
决定系数r2是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的波动中能用自变量解释的比例。
r2的值总是在0和1之间,也可以用百分数表示。
一个线性回归模型如果充分利用了x的信息,因变量不确定性的绝大部分能由回归方程解释,则r2越接近于1,拟合优度就越好,反之亦然。
性质2:
回归方程的显著性检验与r2值的大小是一致的,即检验越显著,r2就越大,但是这种关系并不是完全确定的,在样本容量n很大时,对高度显著的检验结果仍然可能得到一个小的r2。
导致r2小的可能原因有两个,第一是线性回归不成立,第二是y与x之间的确符合线性模型,只是误差项方差大导致r2小,这时在样本容量n很大时,检验结果仍然可能得出线性回归显著的结论。
5.5残差分析,一个线性回归方程通过了t检验或F检验,只是表明变量y与x之间的线性关系是显著的,或者说线性回归方程是有效的,但不能保证数据拟合得很好,也不能排除由于意外原因而导致的数据不完全可靠。
只有当与模型中的残差项有关的假定满足时,才表明模型有效。
2.5.1残差的概念:
实际观测值y与通过回归方程给出的回归值之差,残差ei可以看做是误差项的估计值。
5.5.2残差图分析模型的有效性。
一般认为,如果一个回归模型满足所给出的基本假定,所有残差应是在e0附近随机变化,并在变化幅度不大的一条带子内。
残差图:
以自变量x作横轴,以残差为纵坐标,将相应的残差点画在直角坐标系上,就可以得到残差图。
具体作法:
1.计算残差:
回归分析主对话框中选择save按钮,Residuals选项下的Unstandardized选项,按continue,在原数据文件中加入残差值,2.画残差图。
GraphScatter例:
火灾损失与距离消防站的远近的回归分析,回归方程检验的小结,1.回归方程是否存在的检验F检验是检验自变量全体对因变量y是否产生显著影响2.所有自变量是否都对因变量有显著影响的检验当一个回归方程通过了F检验之后,并不能说明这个回归方程中所有的自变量都对因变量y有显著影响,因此,还要对回归系数进行检验。
3.回归方差是否有效性的检验样本决定系数与残差分析。
3.回归系数的区间估计,当我们用最小二乘法得到0,1的点估计后,在实际应用中往往还希望给出回归系数的估计精度,即给出其置信水平为1的置信区间。
这个区间以1的概率包含参数0,1。
置信区间的长度越短,说明估计值与0,1接近的程度越好,估计值就越精确。
应用spss软件计算回归系数的区间估计:
在线性回归对话框中,点击StatisticsConfidenceinterval,这样,在回归系数表中就增加了回归系数的区间估计。
六、回归模型的运用,建立回归模型的目的是为了应用,而预测和控制是回归模型最重要的应用。
4.1单值预测4.2区间预测4.2.1因变量新值的区间预测4.2.2因变量新值的平均值的区间估计4.3控制问题,4.1单值预测,单值预测就是用单个值作为因变量的预测值。
即当x0新值时,求出y0的预测值。
单值预测只是一个大概值,我们除了想知道预测值外,还希望知道预测值的精度,这就要作区间估计。
4.2区间预测,给一个预测范围比只给出单个预测值更可信,这个问题也就是:
应用SPSS软件直接计算预测值,1.单值预测:
在计算回归之前,把自变量新值x0输入样本数据中,在回归分析主对话框中点击Save按钮在save对话框中点击PredictedValuesUnstandardized2.因变量新值的区间预测:
在save对话框中点击PredictedintervalsIndividual3.因变量新值平均值的区间预测在save对话框中点击Predictedintervalsmean,单值预测,区间预测,例:
火灾损失与距离消防站远近,x03.5公里,预测火灾损失额。
实习2,1.应用实习1的数据,对回归系数与回归常数做点估计与区间估计。
2.预测在贷款余额为380时,不良贷款的估计值和估计区间。
6.一元线性回归模型建立小结,第一步,提出因变量与自变量第二步,搜集数据第三步,根据数据画散点图第四步,设定理论模型第五步,用SPSS软件计算,输出计算结果第六步,回归诊断,分析输出结果,实习3:
下表为四组数据,分别对此四组数据进行回归分析,并做显著性检验。
实验数据文件为:
回归显著性比较.sav,7.多元回归方法,回归自变量的选择是建立回归模型的一个极为重要的问题。
应用spss软件中回归方法的选择可以进行自变量的选择。
一、前进法(Forward)二、后退法(Backward)三、逐步回归法(Stepwise),一、前进法,前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。
具体作法是首先将全部m个自变量,分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,选择其中最大的F值,如果此F值大于F的临界值,则首先将xj引入回归方程,为了方便,设xj就是x1。
接下来因变量y分别与(x1,x2),(x1,x3),(x1,xm)建立m1个二元线性回归方程,对这m1个回归方程中x2,x3,xm的回归系数进行F检验,选择其中最大的引入回归方程。
依上述方法接着做下去。
直至所有未被引入方程的自变量的F值均小于F的临界值。
这时,得到的回归方程就是最终确定的方程。
例:
运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析,用前进法做变量选择,取显著性水平,二、后退法,后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除。
具体作法是首先计算所有变量的回归系数的F检验值,取其最小值Fj,如果Fj小于0.5水平下的F临界值,则把回归系数检验的F值最小者对应的自变量剔除。
接下来对剩下的m1个自变量重新建立回归方程,进行回归系数的显著性检验,如上述方法剔除掉F检验值最小的自变量,依此下去,直至回归方程中所剩余的p个自变量的F检验值均大于临界值,没有可以剔除的自变量为止。
这时得到的回归方程就是最终确定的方程。
例:
例:
运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析,用后退法做变量选择,取显著性水平,前进法与后退法的不足,前进法与后退法都有明显的不足。
前进法可能存在的问题是,不能反映引进新的自变量后的变化情况。
因为某个自变量开始可能是显著的,但当引入其它自变量后它变得并不显著了,但是也没有机会将其剔除,即一旦引入,就是“终身制”的;后退法的不足之处是,一开始把全部自变量引入回归方程,这样计算量很大,如果有些自变量不太重要,一开始就不引入,就可以减少一些计算。
另外,一旦某个自变量被剔除,“一棍子就把它打死了”,它再也没有机会重新进入回归方程了。
三、逐步回归,逐步回归的基本思想是有进有出。
具体作法是:
将变量一个一个引入,当每引入一个自变量后,对已经选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。
引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。
这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。
这样就避免了前进法和后退法各自的缺陷,保证了最后所得到的回归子集时最优回归子集。
例:
运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析,用逐步回归做变量选择。
注意:
引入自变量和剔除自变量的显著性水平进小于剔除自变量的显著性水平否则可能产生“死循环”。
3.5应用spss软件选项进行多元线性回归分析,
(1)线性回归过程:
一元、多元逐步回归。
回归系数估计值、协方差矩阵、复相关系数R、因变量的最佳预测值、方差分析表
(2)对数据要求:
自变量和因变量必须具有Scale测度的数值型变量标志或范畴变量(3)因变量的所有观测值:
相互独立的等方差的正态总体,因变量和自变量之间应具有一定的线性关系,线性回归过程,1、执行AnalyzeRegressionLinear命令,打开对话框,线性回归过程,
(1)从源文件量清单中选择一个数值型变量移入Dependent框中,选择一个或多个变量作为自变量移入Independent框中
(2)选择回归模型的自变量的进入方式Enter所有选择自变量全部进入方式Stepwise逐步回归方式Remove移除法(根据设定条件剔除部分自变量)Backward向后剔除法Forward向前剔除法,线性回归过程,(3)参与分析的观测量选择规则选择观测量的子集参与回归分析,将未选入这个子集的观测量排除在分析之外,线性回归过程,对话框中DefineSelectionRuleEqualto:
等于Lessthanorequal:
小于或等于Notequalto:
不等于Lessthan:
小于Greaterthan:
大于Greaterthanorequal:
大于或等于,线性回归过程,(4)从源文件量清单中选择一个指示变量加到CaseLabels2、选项按钮的功能设置
(1)单击WLS按钮(权重变量)
(2)单击Statistics按钮,打开对话框,线性回归过程,对话框选择输出与回归系数有关的统计量Estimates:
回归系数B的估计值、标准误差、标准化系数、t分布Confidenceintervals:
回归系数95%的置信区间Covariance:
协方差矩阵残值栏Durbin-Watson:
DW检验,残值的序列相关检验Casewisediagnostics:
观测量的诊断方式,线性回归过程,其他统计量Modelfit模型拟合(拟合优度统计量)Rsquaredchange:
交换、F交换及其显著性Descriptives:
回归中的各变量的描述统计量Partandpartialcorrelation:
相关系数与偏相关系数Collinearityanddiagnostics:
多重共线性诊断,线性回归过程,(3)单击Plots按钮,打开Plots对话框选择散点图变量,散点图DEPENDENT:
因变量ZPERD:
标准化预测值ZRESID:
标准化残值DRESID:
剔除残值ADJPRED:
经调整的预测值SRESID:
学生化残值SDRESID:
学生化剔除残值,线性回归过程,线性回归过程,选择StandardizedResidualPlots栏选项,标准化残值图HistogramResidual:
Normalprobabilityplot:
对话框Produceallpartial选项,输出每一个自变量对于自变量残差的散点图,线性回归过程,3、单击Save按钮,打开对话框,线性回归过程,
(1)PredicatedValue:
预测栏Unstandardized:
未标准化的预测值Standardized:
标准化的预测值Adjusted:
经调整后的预测值S.Eofmeanpredictionvalue:
平均预测值的标准误差
(2)Distances:
距离栏Mahalanobis:
马氏距离Cooks:
库克距离LeverageValue:
杠杆值,线性回归过程,(3)PredictionIntervals预测区间栏Mean:
均值预测区间的上下限Individual:
因变量的单个观测量预测区间的上下限Confidence:
置信概率(4)Residuals:
残值栏(5)InfluenceStatistics:
统计影响栏DFBeta(s)Beta:
特定观测值所引起的预测值的变化StandardizedDFBeta:
标准化DFBeta值DfFit:
拟合值之差StandardizedDfFit:
标准化的DfFitCovarianceratio:
协方差比率,线性回归过程,4、单击Options按钮,打开对话框,线性回归过程,
(1)SteppingMethodCriteria:
逐步回归标准栏Useprobability:
使用F概率作为决策变量进入UseFvalue:
使用F统计量值
(2)Includeconstantinequation:
常数项(3)MissingValue:
缺损值处理栏Excludecaseslistwise:
全部变量的有效观测值Excludecasespairwise:
成对地剔除Replacewithmean:
用变量的均值代替缺损值5、单击OK,提交系统运行,实习:
5,验证有些回归方程通过拟和优度检验但还是通不过F检验,这就是样本容量个数n太小,而自变量又较多造成R2的虚假现象。
例:
在研究建筑业降低生产成本y对流动资金X1,固定资金x2,优良品率x3,竣工面积x4,劳动生产率x5,施工产值x6的关系时,利用“建筑业.sav”数据文件中的数据建立回归方程,并对回归方程的显著性进行检验。
通过F检验但不能保证所有的回归系数都对因变量y有显著影响。