多元线性回归实例分析.docx
《多元线性回归实例分析.docx》由会员分享,可在线阅读,更多相关《多元线性回归实例分析.docx(13页珍藏版)》请在冰点文库上搜索。
多元线性回归实例分析
SPSS--回归-多元线性回归模型案例解析!
(一)
多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:
一元线性回归方程为:
毫无疑问,多元线性回归方程应该为:
组样本,“N截止,代表有P个自变量,如果有x2,xp上图中的x1,分别代表“自变量”Xp那么这个多元线性回归,将会组成一个矩阵,如下图所示:
那么,多元线性回归方程矩阵形式为:
不可解释的误和其中随机误差分为:
可解释的误差其中:
代表随机误差,
差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样)
:
服成正太分布,即指:
随机误差1必须是服成正太分别的随机变量。
0
2:
无偏性假设,即指:
期望值为3:
同共方差性假设,即指,所有的随机误差变量方差都相等4:
独立性假设,即指:
所有的随机误差变量都相互独立,可以用协方差解释。
多元线性回归的具体操作过程,下面以教程教程数据今天跟大家一起讨论一下,SPSS---为例,分析汽车特征与汽车销售量之间的关系。
通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。
数据如下图所示:
————”——“点击分析回归线性进入如下图所示的界面:
个自变10车长,车宽,耗油率,车净重等将“作为“销售量”“因变量”拖入因变量框内,将,当然,你也可以选择其它”“逐步”量拖入自变量框内,如上图所示,在“方法旁边,选择默认的方式,在分析结果中,将会得到如下图所示的结果:
进入“”的方式,如果你选择(所有的自变量,都会强行进入)
统计”这个方法,将会得到如下图所示的结果:
(将会根据预先设定的“F逐步如果你选择“关系最为密切,贡””自变量应该是跟“因变量“量的概率值进行筛选,最先进入回归方程的跟因变量关系最为密切,符合判断条件的概献最大的,如下图可以看出,车的价格和车轴
时将会被剔除)0.1,当概率值大于等于0.05率值必须小于
进行条件筛选,可以自变量”选择变量(E)框内,我并没有输入数据,如果你需要对某个““内,有一个前提就是:
该变量从未在另一个目标列表中”将那个自变量,移入“选择变量框即可,如下图所示:
””规则设定相应的“筛选条件“出现!
,再点击
弹出如下所示的框,如下所示:
”统计量“点击
两个选项,再勾“”共线性诊断”“估计,在右侧勾选模型拟合度“和在“回归系数”下面勾选3“3”,(设定异常值的依据,只有当残差超过一般默认值为再点击“离群值”选“个案诊断”点击继续。
倍标准差的观测才会被当做异常值)提示:
共线性检验,如果有两个或两个以上的自变量之间存在线性相关关系,就会产生多重共线性现象。
这时候,用最小二乘法估计的模型参数就会不稳定,回归系数的估计值很容易引”来做判断起误导或者导致错误的结论。
所以,需要勾选“共线性诊断或方差膨胀因子容许度TOL=1-RI平方通过容许度可以计算共线性的存在与否?
个变量的复相关系数,IRI平方是用其他自变量预测第(VIF):
VIF=1/1-RI平方,其中与其他自变量之间存XI的值越小,TOLVIF的值越大,自变量为显然,VIFTOL的倒数,在共线性的可能性越大。
提供三种处理方法:
1:
从有共线性问题的变量里删除不重要的变量:
增加样本量或重新抽取样本。
2:
采用其他方法拟合模型,如领回归法,逐步回归法,主成分分析法。
3选项,如下所示:
”绘制“再点击
上图中:
剔DRESID(标准化预测值)ZRESID(标准化残差)DEPENDENT(因变量)ZPRED(学生化剔除残SDRESID(SRSID(学生化残差)ADJPRED(除残差)修正后预测值)
差)但是,也不要忽略特殊情轴,”作为Y残差“一般我们大部分以自变量”作为X轴,用“(血生化剔除残“SDRESID硜?
轴,分别用“ZPRED况,这里我们以(标准化预测值)作为轴,分别作为两组绘图变量。
“ZRESID(标准化残差)作为Y和差)”按钮,进入如下界面:
“保存”再点击
距离,主要是指:
把一个个案从(cook距离下面的“cook”选项距离如上图所示:
勾选“”距离越大,表明该个案对回归系数计算回归系数的样本中剔除时所引起的残差大小,cook的影响也越大)确定按钮,得到如下所示的分按钮,再点击“继续”“点击单值和均值勾选预测区间在“”“”“”
得到的结果)”逐步法“此分析结果,采用的是(析结果:
多元线性回归结果分析
(二)回归—SPSS—,最近一直很忙,公司的潮起潮落,就好比人生的跌岩起伏,眼看着一步步走向衰弱,却“。
坐看云起时行到水穷处”的座右铭:
“”,”四阿哥里面步步惊心无能为力,也许要学习“”“里面的内容,上一次,没有写结果分析,这次补上,”接着上一期的“多元线性回归解析
结果分析如下所示:
:
1结果分析.
的结合体,从结果可以看出,最先进”和“向后逐步”法,逐步法是“向前”由于开始选择的是“,紧随其后的是1建立了模型线性回归模型入“”的是甥?
挱牰捩?
湩琠潨獵湡獤时,0.052,所以,模型中有此方法有个概率值,当小于等于甥?
挱桗敥扬獡履建立了模型时,(最先进入模型的,相关性最强,关系最为密切)当大于等0.1“进入线性回归模型””剔除从“线性模型中
结果分析:
拟合优度来看,模2)从R2“模型汇总”中可以看出,有两个模型,(模型1和模型:
从11要好一些型2的拟合优度明显比模型)(0.422>0.300为残差平方和115.311,“”为回归平方和中的模型表中,可以看出:
从2甥?
挱湁癯屡“2”“”即指随即误差,不可(残差平方和,由于残差平方和+回归平方和=,由于总平方和153.072.
解释的误差)由于“回归平方和”跟“残差平方和”几乎接近,所有,此线性回归模型只解释了总平方和的一半,
3:
根据后面的“F统计量”的概率值为0.00,由于0.00<0.01,随着“自变量”的引入,其显著性概率值均远小于0.01,所以可以显著地拒绝总体回归系数为0的原假设,通过ANOVA方差分析表可以看出“销售量”与“价格”和“轴距”之间存在着线性关系,至于线性关系的强弱,需要进一步进行分析。
结果分析:
所“0.05”中各变量的T检的概率值都大于2”“”“1:
从已排除的变量表中,可以看出:
模型必须剔除。
”线性回归模型“以,不能够引入.
a”表中可以看出:
从“系数+0.061*轴距:
多元线性回归方程应该为:
销售量=-1.822-0.055*价格1所以常数项不具备显著性,所以,我们再看后面0.116>0.1)但是,由于常数项的sig为(没有数值,已经被剔除常数项”标准系数的“”,在标准系数一列中,可以看到“+0.356*轴距所以:
标准化的回归方程为:
销售量=-0.59*价格VIF都一样,而且“vif“和轴距”两个容差和”“”“2:
再看最后一列共线性统计量,其中价格,所以两个自变量之间没有出现共线性,容忍度和51.012都为,且都小于膨胀因子是互为倒数关系,容忍度越小,膨胀因子越大,发生共线性的可能性也越大
表中可以看出:
共线性诊断”从“的方式,特征值主要用来刻画自变量的方差,诊断自变量特征值”1:
共线性诊断采用的是“间是否存在较强多重共线性的另一种方法是利用主成分分析法,基本思想是:
如果自变量间确实存在较强的相关关系,那么它们之间必然存在信息重叠,于是就可以从这些自变量中提取出既能反应自变量信息(方差),而且有相互独立的因素(成分)来,该方法主要从自变量间的相关系数矩阵出发,计算相关系数矩阵的特征值,得到相应的若干成分。
中),最从上图可以看出:
从自变量相关系数矩阵出发,计算得到了三个特征值(模型20.003
最小特征值为2.847,大特征值为2.847/0.150条件索引为的(即特征值2再进行开方最大特征值条件索引=/相对特征值
=4.351)再开方,每一个特征值都能够刻画某自变量的一定比例,所有的特征值能将1标准化后,方差为刻画某自变量信息的全部,于是,我们可以得到以下结论:
第二个特征值解释了,0.021:
价格在方差标准化后,第一个特征值解释了其方差的0.00
,第三个特征值解释了0.97第二个特征值解释了,:
轴距在方差标准化后,第一个特征值解释了其方差的20.000.99
,第三个特征值解释了0.01.
可以看出:
没有一个特征值,既能够解释“价格”又能够解释“轴距”所以“价格”和“轴距”之间存在共线性较弱。
前面的结论进一步得到了论证。
(残差统计量的表中数值怎么来的,这个计算过程,我就不写了)
从上图可以得知:
大部分自变量的残差都符合正太分布,只有一,两处地方稍有偏离,如-3-5图上的(到区域的)处理偏离状态