回归分析SPSS习题答案.docx
《回归分析SPSS习题答案.docx》由会员分享,可在线阅读,更多相关《回归分析SPSS习题答案.docx(24页珍藏版)》请在冰点文库上搜索。
回归分析SPSS习题答案
回归分析习题
1通常用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额和经营面积的比值。
对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。
这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的。
而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据。
(数据集wyzl4_2中存放了从某市随机抽取的20个商业中心有关指标的数据,利用该数据完成下列工作
(1)研究变量间的相关程度。
(其余6个变量和“单位面积年营业额”间的相关程度,其余6个变量之间的相关程度);
(2)由
(1)的结论建立“单位面积年营业额”和和其线性相关程度最高的变量的一元线性回归方程;
(3)采用逐步回归方法建立“单位面积年营业额”的预测公式。
表20个商业中心有关指标的数据
商业中心编号
单位面积年营业额(万元/平方米)Y
每小时机动车流量(万辆)x1
日人流量(万人)x2
居民年消费额(万元)x3
对商场环境满意度x4
对商场设施满意度x5
对商场商品丰富程度满意度x6
1
2.5
0.51
3.90
1.94
7
9
6
2
3.2
0.26
4.24
2.86
7
4
6
3
2.5
0.72
4.54
1.63
8
8
7
4
3.4
1.23
6.98
1.92
6
10
10
5
1.8
0.69
4.21
0.71
8
4
7
6
0.9
0.36
2.91
0.62
5
6
5
…
…
…
…
…
…
…
…
15
2.6
1.04
5.53
1.30
10
7
9
16
2.7
1.18
5.98
1.28
8
7
9
17
1.4
0.61
1.27
1.48
6
7
1
18
3.2
1.05
5.77
2.16
7
10
9
19
2.9
1.06
5.71
1.74
6
9
9
20
2.5
0.58
4.11
1.85
7
9
6
2.我国从1982~2001年间的20年的财政收入(Y)和国内生产总值(X)的数据存放在数据集wyz4_4_7.中。
试分别采用指数回归、对数回归、幂函数回归和多项式回归给出回归方程,并选择最佳回归方程。
1.解:
(1)变量间的相关性分析
利用SPSS软件构造所有变量的散点图矩阵和相关矩阵,结果见图1和表1
从散点图矩阵直观可以看出Y“单位面积年营业额”和x2“日人流量(万人)”和x3“居民年消费额(万元)”线性关系较密切。
x2“日人流量(万人)”和x6“对商场商品丰富程度满意度”线性关系较密切
从表1得
=0.795**,
=0.790**,
=.0.697**,
说明Y“单位面积年营业额”和x3“居民年消费额(万元)”,x2“日人流量(万人)”,x6“对商场商品丰富程度满意度”及x5“对商场设施满意度”在0.01水平(双侧)上显著相关线性关。
可以考虑采用多元线性回归模型来建立“单位面积年营业额”的预测公式。
图1散点图矩阵
表1相关矩阵
单位面积
年营业额
(万元/m2)
每小时机
动车流量
(万辆)
日人流量
(万人)
居民年
消费额
(万元)
对商场
环境
满意度
对商场
设施
满意度
对商场商
品丰富程
度满意度
单位面积
年营业额
(万元/m2)
Pearson相关性
1
.413
.790**
.795**
.341
.450*
.697**
显著性(双侧)
.071
.000
.000
.141
.046
.001
N
20
20
20
20
20
20
20
每小时机动车
流量(万辆)
Pearson相关性
.413
1
.751**
-.129
.664**
.424
.774**
显著性(双侧)
.071
.000
.588
.001
.062
.000
N
20
20
20
20
20
20
20
日人流量
(万人)
Pearson相关性
.790**
.751**
1
.273
.594**
.279
.983**
显著性(双侧)
.000
.000
.245
.006
.233
.000
N
20
20
20
20
20
20
20
居民年消费额
(万元)
Pearson相关性
.795**
-.129
.273
1
-.112
.426
.144
显著性(双侧)
.000
.588
.245
.639
.061
.545
N
20
20
20
20
20
20
20
对商场环境
满意度
Pearson相关性
.341
.664**
.594**
-.112
1
.042
.643**
显著性(双侧)
.141
.001
.006
.639
.862
.002
N
20
20
20
20
20
20
20
对商场设施
满意度
Pearson相关性
.450*
.424
.279
.426
.042
1
.243
显著性(双侧)
.046
.062
.233
.061
.862
.302
N
20
20
20
20
20
20
20
对商场商品
丰富程度
满意度
Pearson相关性
.697**
.774**
.983**
.144
.643**
.243
1
显著性(双侧)
.001
.000
.000
.545
.002
.302
N
20
20
20
20
20
20
20
**.在.01水平(双侧)上显著相关。
(2)建立Y“单位面积年营业额”和“居民年消费额”的一元线性回归方程
设
利用SPSS软件的线性回归分析的模块进行分析,结果见表2~表6和图2~图3
由最小二乘估计得到一元线性回归方程(见表4)
Y(单位面积年营业额)=0.928+0.877x3(居民年消费额)
由回归方程的显著性检验的p值Sig.=.000,知回归方程在α=0.01的水平上通过检验,
即Y和x3的线性关系是显著的(见表3方差分析表)
由常量
的t检验的p值Sig.=0.005<0.01知回归方程的常数项不为零。
拟合有常数
项的回归方程是合适的(见表4系数表)
由方程的拟合优度(可决系数)
=0.631,知方程的拟合优度(可决系数)还不够高,即方程有改进的余地,还可以引入有关的变量。
(见表1)
对残差作Shapiro-Wilk正态性检验,p值Sig.=0.538>0.05(见表5)知随机误差项
服从正态分布的假定满足。
作回归标准化残差的标准P-P图(见图2),进一步验证了随机误差项
服从正态分布的假定满足
对残差序列作D-W检验,检验统计量Durbin-Watson=2.125知
之间存在
一定的负自相关:
相互独立的假定不一定满足(见表2)
以标准化的残差
为纵坐标,而以标准化的预测值
为横坐标做残差的散点图(见图3)。
图中显示散点随机地分布在–2到+2的带子里,可以认为线性回归模型的等方差假定成立。
结论:
(1)一元线性回归方程
Y(单位面积年营业额)=0.928+0.877x3(居民年消费额)
在α=0.01的水平上通过检验,拟合优度为0.631,方程有改进的余地,还可以引入有关的变量。
(2)误差项正态分布的假设和和误差项的等方差假设均成立,但误差项的独立性假设不满足。
表2
模型汇总b
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.795a
.631
.611
.51341
2.125
a.预测变量:
(常量),居民年消费额(万元)。
b.因变量:
单位面积年营业额(万元/m2)
表3方差分析表
Anovab
模型
平方和
df
均方
F
Sig.
1
回归
8.125
1
8.125
30.824
.000a
残差
4.745
18
.264
总计
12.870
19
a.预测变量:
(常量),居民年消费额(万元)。
b.因变量:
单位面积年营业额(万元/m2)
表4
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准误差
试用版
1
(常量)
.928
.288
3.220
.005
居民年消费额(万元)
.887
.160
.795
5.552
.000
a.因变量:
单位面积年营业额(万元/m2)
表5残差的正态性检验
TestsofNormality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic
df
Sig.
Statistic
df
Sig.
StandardizedResidual
.090
20
.200*
.960
20
.538
a.LillieforsSignificanceCorrection
*.Thisisalowerboundofthetruesignificance.
图2回归标准化残差的标准P-P图
图3标准化残差图
表6
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
1.4244
4.0049
2.3950
.65393
20
残差
-.89496
.76957
.00000
.49972
20
标准预测值
-1.484
2.462
.000
1.000
20
标准残差
-1.743
1.499
.000
.973
20
a.因变量:
单位面积年营业额(万元/m2)
(3)采用逐步回归方法建立“单位面积年营业额”的预测公式。
解设y和x1,x2,…,x8满足
规定:
进入方程的变量的显著性水平为0.05,从方程中剔出变量的显著性水平为0.10,(见表7)
逐步回归的步骤:
(见表10)
第一步引入变量x3居民年消费额(万元)得到一元线性回归方程
Y(单位面积年营业额)=0.928+0.877x3(居民年消费额),
第二步引入变量x2日人流量(万人)得到线性回归方程
Y(单位面积年营业额)=-0.117+0.698x3(居民年消费额)+0.317x2(日人流量(万人)),
第三步引入变量x4对商场环境满意度,所得线性回归方程为:
Y(单位面积年营业额)=-.297+0.723x3(居民年消费额)+0.291x2(日人流量(万人))+0.037x4(对商场环境满意度)
以上3方程在显著性水平为0.05上均通过检验(见表9)。
第3个方程的回归系数(包括常数项)t检验的p值0.010,0.000,0.000,0.034,在显著性水平为0.05上均通过检验(见表10)。
三个方程的修正R方值逐步增大0.611<0.985<.988,故第3个方程为最优的(见表8)
对第3个方程的自变量作共线性诊断(见表10):
回归方程第i个回归系数的方差膨胀因子VIF分别1.235、1.885、1.767,说明方程中的3个回归变量不存在共线性,
对残差序列作D-W检验,检验统计量Durbin-Watson=2.574>2知
之间存在一定的负自相关:
相互独立的假定不一定满足(见表8)
对残差作Shapiro-Wilk正态性检验,p值Sig.==0<0.01(见表15)知随机误差项
不服从正态分布。
作回归标准化残差的标准P-P图(见图3),进一步验证了随机误差项
不服从正态分布。
以标准化的残差
为纵坐标,而以标准化的预测值
为横坐标做残差的散点图(见图5)。
图中显示散点随机地分布在–2到+2的带子里(除一个点),可以认为线性回归模型的等方差假定成立。
结论:
(1)“单位面积年营业额”的预测公式为:
Y(单位面积年营业额)=-.297+0.723x3(居民年消费额)+0.291x2(日人流量(万人))+0.037x4(对商场环境满意度)
方程在显著性水平为0.05上通过检验,调整的R方值=0.988,
(2)模型的假定误差项的正态性和不相关性存在问题,估计方法有待改进。
表7
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
居民年消费额(万元)
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
2
日人流量(万人)
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
3
对商场环境满意度
.
步进(准则:
F-to-enter的概率<=.050,F-to-remove的概率>=.100)。
a.因变量:
单位面积年营业额(万元/m2)
表8
模型汇总d
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.795a
.631
.611
.51341
2
.993b
.987
.985
.09930
3
.995c
.990
.988
.08861
2.574
a.预测变量:
(常量),居民年消费额(万元)。
b.预测变量:
(常量),居民年消费额(万元),日人流量(万人)。
c.预测变量:
(常量),居民年消费额(万元),日人流量(万人),对商场环境满意度。
d.因变量:
单位面积年营业额(万元/m2)
表9
Anovad
模型
平方和
df
均方
F
Sig.
1
回归
8.125
1
8.125
30.824
.000a
残差
4.745
18
.264
总计
12.870
19
2
回归
12.702
2
6.351
644.024
.000b
残差
.168
17
.010
总计
12.870
19
3
回归
12.744
3
4.248
540.982
.000c
残差
.126
16
.008
总计
12.870
19
a.预测变量:
(常量),居民年消费额(万元)。
b.预测变量:
(常量),居民年消费额(万元),日人流量(万人)。
c.预测变量:
(常量),居民年消费额(万元),日人流量(万人),对商场环境满意度。
d.因变量:
单位面积年营业额(万元/m2)
表10
系数a
模型
非标准化系数
标准系数
B
标准误差
试用版
t
Sig.
1
(常量)
.928
.288
3.220
.005
居民年消费额(万元)
.887
.160
.795
5.552
.000
2
(常量)
-.117
.074
-1.585
.131
居民年消费额(万元)
.698
.032
.625
21.739
.000
日人流量(万人)
.317
.015
.620
21.544
.000
3
(常量)
-.297
.102
-2.913
.010
居民年消费额(万元)
.723
.031
.648
23.603
.000
日人流量(万人)
.291
.017
.569
16.766
.000
对商场环境满意度
.037
.016
.076
2.313
.034
a.因变量:
单位面积年营业额(万元/m2)
系数a
模型
共线性统计量
容差
VIF
1
居民年消费额(万元)
1.000
1.000
2
居民年消费额(万元)
.926
1.080
日人流量(万人)
.926
1.080
3
居民年消费额(万元)
.810
1.235
日人流量(万人)
.530
1.885
对商场环境满意度
.566
1.767
a.因变量:
单位面积年营业额(万元/m2)
表11
已排除的变量d
模型
BetaIn
t
Sig.
偏相关
1
每小时机动车流量(万辆)
.524a
6.813
.000
.856
日人流量(万人)
.620a
21.544
.000
.982
对商场环境满意度
.436a
4.192
.001
.713
对商场设施满意度
.137a
.858
.403
.204
对商场商品丰富程度满意度
.595a
16.600
.000
.971
2
每小时机动车流量(万辆)
.088b
1.927
.072
.434
对商场环境满意度
.076b
2.313
.034
.501
对商场设施满意度
.013b
.423
.678
.105
对商场商品丰富程度满意度
-.113b
-.520
.610
-.129
3
每小时机动车流量(万辆)
.065c
1.459
.165
.353
对商场设施满意度
.016c
.546
.593
.140
对商场商品丰富程度满意度
-.223c
-1.156
.266
-.286
a.模型中的预测变量:
(常量),居民年消费额(万元)。
b.模型中的预测变量:
(常量),居民年消费额(万元),日人流量(万人)。
c.模型中的预测变量:
(常量),居民年消费额(万元),日人流量(万人),对商场环境满意度。
d.因变量:
单位面积年营业额(万元/m2)
表12
已排除的变量d
模型
共线性统计量
容差
VIF
最小容差
1
每小时机动车流量(万辆)
.983
1.017
.983
日人流量(万人)
.926
1.080
.926
对商场环境满意度
.987
1.013
.987
对商场设施满意度
.819
1.221
.819
对商场商品丰富程度满意度
.979
1.021
.979
2
每小时机动车流量(万辆)
.316
3.168
.297
对商场环境满意度
.566
1.767
.530
对商场设施满意度
.790
1.266
.790
对商场商品丰富程度满意度
.017
59.374
.016
3
每小时机动车流量(万辆)
.291
3.442
.277
对商场设施满意度
.789
1.267
.516
对商场商品丰富程度满意度
.016
62.518
.016
d.因变量:
单位面积年营业额(万元/m2)
表13
共线性诊断a
模型
维数
方差比例
特征值
条件索引
(常量)
居民年消费额(万元)
日人流量(万人)
对商场环境满意度
1
1
1.917
1.000
.04
.04
2
.083
4.812
.96
.96
2
1
2.837
1.000
.01
.02
.01
2
.105
5.197
.04
.89
.33
3
.058
6.971
.95
.10
.66
3
1
3.785
1.000
.00
.01
.00
.00
2
.136
5.270
.00
.68
.03
.05
3
.062
7.823
.23
.01
.59
.02
4
.017
14.838
.76
.31
.38
.93
a.因变量:
单位面积年营业额(万元/m2)
表14
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
1.0291
3.9475
2.3950
.81898
20
残差
-.28298
.08128
.00000
.08132
20
标准预测值
-1.668
1.896
.000
1.000
20
标准残差
-3.193
.917
.000
.918
20
a.因变量:
单位面积年营业额(万元/m2)
表15
TestsofNormality
Kolmogorov-Smirnova
Shapiro-Wilk
Statistic
df
Sig.
Statistic
df
Sig.
StandardizedResidual
.172
20
.121
.775
20
.000
a.LillieforsSignificanceCorrection
图4回归标准化残差的标准P-P图
图5标准化残差图
2.我国从1982~2001年间的20年的财政收入(Y)和国内生产总值(X)的数据存放在数据集wyz4_4_7.中。
试分别采用指数回归、对数回归、幂函数回归和多项式回归给出回归方程,并选择最佳回归方程。
解:
(1)利用SPSS软件作Y和X的散点图
由散点图可以看出可以利用
指数(Exponential)回归y=a
对数(Logarithmic)回归y=a+b
幂函数(Power)回归y=a
二次曲线(Quadratic)y=
三次曲线(Cubic)y=
作曲线拟合
(2)利用SPSS软件拟合结果
ModelSummaryandParameterEstimates
DependentVariable:
财政收入
Equation
ModelSummary
ParameterEstimates
RSquare
F
df1
df2
Sig.
Constant
b1
b2
b3
Logarithmic
.767
59.175
1
18
.000
-34350.518
3913.184
Quadratic
.979
394.453
2
17
.000
2040.650
-.010
1.523E-6
Cub