简单线性相关一元线性回归分析.docx
《简单线性相关一元线性回归分析.docx》由会员分享,可在线阅读,更多相关《简单线性相关一元线性回归分析.docx(18页珍藏版)》请在冰点文库上搜索。
简单线性相关一元线性回归分析
第十三讲简单线性相关(一元线性回归分析)
对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:
变量之间的因果关系如何。
回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。
如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。
一、一元线性回归模型及其对变量的要求
(一)一元线性回归模型
1、一元线性回归模型示例
两个变量之间的真实关系一般可以用以下方程来表示:
Y=A+BX+
方程中的A、B是待定的常数,称为模型系数,
是残差,是以X预测Y产生的误差。
两个变量之间拟合的直线是:
是y的拟合值或预测值,它是在X条件下Y条件均值的估计
a、b是回归直线的系数,是总体真实直线A、B的估计值,a即constant是截距,当自变量的值为0时,因变量的值。
b称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。
可以对回归方程进行标准化,得到标准回归方程:
为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位(
),因变量Y的标准差的平均变化。
由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y的重要性。
(二)对变量的要求:
回归分析的假定条件
回归分析对变量的要求是:
自变量可以是随机变量,也可以是非随机变量。
自变量X值的测量可以认为是没有误差的,或者说误差可以忽略不计。
回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:
独立、线性、正态、等方差。
(三)数据要求
模型中要求一个因变量,一个或多个自变量(一元时为1个自变量)。
因变量:
要求间距测度,即定距变量。
自变量:
间距测度(或虚拟变量)。
二、在对话框中做一元线性回归模型
例1:
试用一元线性回归模型,分析大专及以上人口占6岁及以上人口的比例(edudazh)与人均国内生产总值(agdp)之间的关系。
本例使用的数据为st2004.sav,操作步骤及其解释如下:
(一)对两个变量进行描述性分析
在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。
最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。
通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。
如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。
打开st2004.sav数据→单击Graphs→Scatter→打开Scatterplot对话框→单击Simple→单击Define→打开SimpleScatterplot对话框→点选agdp到YAxis框→点选edudazh到XAaxis框内→单击OK按钮→在SPSS的Output窗口输出所需图形。
图12-1大专及以上人口占6岁及以上人口比例与人均国内生产总值的散点图
判断:
线性趋势较明显。
(二)SPSS线性回归主对话框介绍
打开线性回归主对话框的操作方法是:
在st2004.sav数据界面上单击Analyze→Regression→Linear→打开LinearRegression主对话框
图12-2LinearRegression命令位置
图12-3LinearRegression主对话框
LinearRegression主对话框的功能有:
1、选择因变量
Dependent框:
放置因变量,一次只能放一个因变量。
本例点选agdp进入Dependent框。
2、选择自变量
Independent框:
放置自变量,可以放置多个自变量。
本例点选edudazh进入Independent框。
3、对自变量进行分组
Block按钮组:
由Previous和Next两个按钮组成,用来对自变量框中的自变量进行分组,在多元回归时会用到。
4、变量进入方式
Method框:
Enter:
一元回归时,只选择这种方法,强行进入。
所有变量依次进入。
Stepwise:
逐步回归,将所有满足条件的都进入方程,不满足的剔除。
Remove:
强行移出法,这一方法必须在这一组自变量在前面一步已经纳入到回归时才用,否则没有可以剔除的。
Backward:
自后消除法,将满足剔除标准的剔除
Forward:
向前加入法,所有满足进入回归方程的变量都可以进入。
在一元回归时,只用Enter即可。
本例选择变量进入的方式为Enter。
5、选择筛选变量
SelectionVariable框:
选入一个筛选变量,并利用右侧的Rules建立条件,这样,只有满足这个条件的记录才会进入回归分析,当然,我们也可以用Data菜单中的SelectCase过程来做,效果相同。
6、个案标签
CaseLabels选择一个变量,其取值作为每条记录的标签,最典型的是使用记录ID个案号的变量。
7、加权最小二乘法计算
WLSWeight框;利用该按钮可进行加权最小二乘法的计算。
选入权重变量进入该框即可。
使用条件:
当应变量的变异程度具有某种趋势,即不是等方差时,通过加权,进行分析,是一种有偏估计。
8、选择统计量
Statistics框:
可以选择回归系数、残差诊断、模型拟合度等多种回归分析非常重要的统计量,在下文将详细介绍。
9、输出图形
Plots框:
可输出多种用于检验回归分析假定条件的图形,在下文将将详细介绍。
10、保存回归分析结果
Save框:
可以把回归分析的结果存起来,然后用得到的残差、预测值等做进一步的分析。
单击图12-3中的Save…按钮,打开LinearRegression的Save对话框(见图12-4),研究者可以根据自己的需要进行选择。
图12-4LinearRegression的Save对话框
图12-4中:
可以保持的回归分析结果主要有:
Predicatedvalues:
各种预测值.
#Unstandardized保存模型对因变量的原始预测值.
#Standardized:
保存进行标准化后的预测值,均数0,方差1.
#Adjusted:
保存调整后的残差。
#S.E.#ofmeanpredictions:
保存预测值的标准差.
Residuals:
残差。
#Unstandardized:
保存非标准化的残差,
#Standardized:
保存进行标准化后的残差
#Studentlized:
保存学生化残差
#Deleted:
它保存被排除进入相关系数计算的观察量的残差,是因变量与预测值之间的差值,通过它可以发现可疑的强影响点
#StudentlizedDeleted:
对上一个预测值进行t变换
Distances:
用来测量数据点离拟合模型距离的指标
#Mahalanobis:
个案值离样本平均值的距离,如果某个个案多个自变量出现大的这种距离,可以认为它是离群值
#Cook’s表示去除这个个案后,模型的残差会发生多大的变化,一般认为如果这个值大于1,则有离群值或强影响点
#Leveragevalues:
用来测量数据点的影响强度,如中心杠杠值的变动范围是0―――(N-1)/N
Influencestatistics:
用来判断强影响点的统计量
#DfBeta:
DifferenceinBeta去除某个观测值后回归系数的变化
#standardizedDfBeta标准化的DfBeta值,当它大于1/Sqrt(N)时,该点为强影响点,
#DfFit.:
Differenceinfitvalue去除这个观测值后预测值的变化值
#Covarianceratio去除这个观测值后,斜方差阵与包含全部观测值的斜方差阵的比率,如果绝对值大于3*P/N,这个观测值为强影响点或离群值。
11、置信水平和缺少值处理方式选择
Options框:
当自变量进入方式采取逐步回归时,打开Options对话框可以设定选择变量进入的和剔除的条件。
可以对缺少值的处理方式进行选择。
(三)回归分析统计量选择
单击图12-3中的Statistics…按钮,打开一个LinearRegression的Statistics对话框(见图12-5),研究者可以根据自己的需要进行选择。
图12-5LinearRegression的Statistics对话框
1、回归系数及其基本含义
图12-5中的RegressionCoefficients,提供了关于回归系数的三种选项。
Estimates选项:
点选后可输出回归方程中关于回归系数的基本情况,输出的数值有:
B值、Beta、t值、t值的双尾检验。
来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表12-1)。
2、置信区间
点选图12-5中的Confidenceintervals,可以求得回归系数的95%置信区间,在置信度95%时,置信区间为:
式中
为样本标准差,
为回归系数。
来看例1关于“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程的回归系数(见表12-2)。
表13-2给出了回归系数B的95%的置信区间,置信区间的下限为1593.071,上限为2849.639。
3、模型拟合度
点选图12-5中的ModelFit,可以输出对模型拟合度进行评价的统计量。
模型拟合统计量主要有:
R、RRsquare、Radj。
这些值主要用来判断模型的拟合度或解释力怎么样。
表13-3和表13-4为“大专及以上人口占6岁及以上人口比例与人均国内生产总值”线性回归方程模型的拟合度统计量。
(1)相关系数R
表13-3中的相关系数R=0.802,反映了真实数据与回归直线靠近的程度,直接反映了一元线性回归或多元性回归预测效果的好坏程度。
(2)判定系数RSquare
RSquare也叫判定系数或确定系数(CoefficientofDetermination),它等于(总平方和-余差平方和)/总平方和
总平方和(TotalSumofSquare)的计算公式是;
TSS=
表示观察值围绕均值的情况,表示总的分散程度。
TSS相当于PRE中的E1,因为当不知道自变量x和因变量y有关系时,对因变量的最好的估计就是因变量的均值,而每一个真实的因变量的观察值和因变量的均值的差,就构成了每次估计的误差。
回归平方和(RegressionSumofSquare)为回归方程能够解释因变量Y变化的部分,其计算公式为:
RSS=
式中:
=a+bx
RSS反映了因变量Y的观察值偏离回归直线的程度,相当于PRE中的E2,也就是知道Y与X有关系以后,估计Y值时产生的总误差。
余差平方和(ErrorSumofSquare)为回归直线不能解释因变量Y变化的部分,是不可解释的残差。
TSS(总平方和)—ESS(回归直线未能解释的误差)=RSS(通过回归直线被解释掉的误差。
RSquare=(TSS-ESS)/TSS
RSquare越大,说明被解释掉的误差越大,说明模型拟合度越好,从而可以反映出自变量对回归模型的贡献,其解释能力越强。
本例的RSquare为0.643,表示模型的拟合度为64.3%,或者说当仅以大专及以上人口占6岁及以上人口比例与人均国内生产总值来建构线性回归模型时,自变量大专及以上人口占6岁及以上人口比例能够解释掉64.3%的人均国内生产总值的差异。
(3)修正的R平方
AdjustedRSquare为修正的判定系数。
随着自变量个数的增加,剩余平方和逐渐减少,R平方也随之增大,所以R平方是一个受自变量的个数与样本规模的比例影响很大的系数。
一般当自变量与样本规模的比例是1:
10以上比较好,当这个比值小于1:
5时,R平方会高估实际的拟合优度,为了避免这种情况的出现,就用调整的AdjustedRSquare代替RSquare。
修正的R平方的计算公式为:
当样本数量远远大于自变量的个数时,调整的R平方就非常接近R平方。
本例修正的R平方为0.631,比RSquare(0.643)略小。
(4)回归方程的检验
表12-3回归方差分析表
来源
自由度
df
平方和
sumofsquare
均方和
meansquare
F值
显著水平
Sig.
回归
Regression
K
RSS
RSS/K
余差
Residual
n-k–1
ESS
ESS/(N–K-1)
总
n-1
TSS
F检验的假设是:
原假设:
自变量与因变量之间无线性相关,各个回归系数相等。
也就是能否肯定总体回归系数中至少有一个不等于0。
研究假设:
自变量与因变量之间存在线性相关,是至少有一个回归系数不等于0。
如果接受原假设,那么自变量与因变量之间的线性关系就不显著,如果拒绝原假设,接受研究假设,那么自变量与因变量之间存在线性关系。
如果计算的显著性小于
,(事先确定的
标准,社会科学研究中通常取0.05或0.01),则拒绝原假设,接受研究假设。
表13-4为大专及以上人口占6岁及以上人口比例与人均国内生产总值线性回归模型的方差分析表,模型的回归平方和为2188940608.45,自由度为1,回归均方和为2188940608.45。
余差平方和为1214014234.91,自由度为29,余差均方和为41862559.82。
F值=52.289=2188940608/41862559.82,F的显著性Sig.=.000,小于5%,所以,本例的模型拟合度RSquare具有统计学意义。
(四)回归分析假定条件的检查
1、正态分布检查
一般用标准化误差直方图、标准化误差正态概率散点图、标准化误差和标准化预测值的散点图来对正态分布进行检查。
操作方法:
第一步:
单击图12-3中的Plots…→打开RegressionLinear:
Plots作图对话框。
图12-6RegressionLinear:
Plots作图对话框
第二步:
点选*ZRESID(标准化误差频数)到
框(设为纵坐标)→点选*ZPRED(标准化误差)到
(设为横坐标)。
第三步:
单击
→*ZRESID(标准化误差频数)到
框(设为纵坐标)→点选*SRESID到
(设为横坐标)→点选Histogram(即要求输出残差统计量的正态分布图)→点选Normalprobabilityplot(即要求输出标准残差正态分布图)→单击Continue→返回LinearRegression对话框→单击OK→输出图形(见图12-7和图12-8)
图13-7是标准化误差正态概率散点图,如果总体误差项服从正态分布,则散点将完全落在由原点出发的参照线上,横坐标0.5代表误差由负到正的分界点,即这一点代表误差为0的情况,由这点向左侧延伸代表负误差值越来越大,由这点向右侧延伸代表正误差值越来越大。
显然,本例总体误差项并不完全服从正态分布,因为有一部分散点远离了参照线。
图13-8为标准化误差直方图,图中显示均值为-3.73-16标准差为0.983,可见并不完全符合标准正态分布。
3、均方差性的检查
可以用标准化误差正态概率散点图来对均方差性进行检验。
如果均方差性存在,则横轴上方各散点的纵向分布宽度应该相等,如果散点图的分布有明显的宽窄之分,那么说明均方差性的假设条件没有得到较好的满足。
图12-9为标准化误差和标准化预测值的散点图,从图上可以看到,横轴上方各散点的纵向分布宽度还是存在差异,因此,并不完全符合均方差性的条件。
4、是否存在特异值
可以通过标准化误差和标准化预测值的散点图(见图12-9)对是否存在特异值进行检验,如果存在超出±2区间的标准化误差值,便可以认为存在特异值。
本例中可以看到有两个散点的标准化误差值超过了2,可以断定因变量存在特异值。
5、是否存在误差序列相关
可以用DurbinWatson统计量来检验误差项之间是否存在序列,DurbinWatson统计量的计算公式是:
值的值域为[0,4],在误差不存在序列相关的时候,它应该在2左右,当
值小于2时,意味着相邻的误差之间存在正相关。
当
大于2时,意味着相邻的误差之间存在负相关。
SPSS给出了DurbinWatson统计量,但没有给出检验,需要自己查DurbinWatson表。
点选图13-5中Residuals下的Dubin-Watson(见图13-10),进行相应操作后,可以输出DurbinWatson统计量值(见表13-6)。
图12-10选择DurbinWatson统计量
本例的DurbinWatson统计量值为2.39,意味着相邻的误差之间存在一定的负相关。