spss缺失值分析Word文档下载推荐.docx
《spss缺失值分析Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《spss缺失值分析Word文档下载推荐.docx(11页珍藏版)》请在冰点文库上搜索。
Std.Deviation
1.3963
Minimum
5.0
Maximum
10.0
Range
InterquartileRange
2.6
Skewness
-.245
.241
Kurtosis
-1.132
.478
表2
TestsofNormality
Kolmogorov-Smirnova
Shapiro-Wilk
df
Sig.
.109
100
.005
.950
.001
a.LillieforsSignificanceCorrection
图1
语句2:
VARIABLES=x6BYx1/PLOT=BOXPLOT/STATISTICS=NONE/NOTOTAL
/MISSING=REPORT.
VARIABLES=x7BYx1/PLOT=BOXPLOT/STATISTICS=NONE/NOTOTAL
根据x1把x6和x7分别分成三组进行统计分析,并作出箱式图。
以x6为例见表3、图2。
表3
CaseProcessingSummary
X1-CustomerType
Cases
Valid
Missing
Total
N
Percent
Lessthan1year
32
100.0%
0.0%
1to5years
35
Over5years
33
图2
语句3:
ONEWAY
x6x7BYx1
/MISSINGANALYSIS
/POSTHOC=SCHEFFEALPHA(.05).
根据x1分别对x6和x7进行分组方差分析,并进行事后检验。
(表略)
B.缺失值分析(HBAT_MISSING.sav)
Countnmiss=v1tov14(missing).
freqnmiss.
统计每个被试出现缺失值数的频数、百分比。
数据表中生成被试缺失值频数列。
结果发现,缺失值最多的被试共缺失7个值,这样的被试有6个(表4)
表4
nmiss
Frequency
ValidPercent
CumulativePercent
.00
26
37.1
1.00
15
21.4
58.6
2.00
19
27.1
85.7
3.00
4
5.7
91.4
7.00
6
8.6
100.0
70
MVA
v1v2v3v4v5v6v7v8v9v10v11v12v13v14
/MAXCAT=25
/ID=id
/CATEGORICAL=v10v11v12v13v14
统计每个连续变量的有效值的频数、均值、标准差以及缺失值的频数、百分比。
结果表明变量v1的缺失值最大,缺失比例达30%(表5)。
表5
UnivariateStatistics
No.ofExtremesa
Count
Low
High
v1
49
4.008
.9318
21
30.0
v2
57
1.944
.8751
13
18.6
v3
53
8.062
1.4072
17
24.3
v4
63
5.168
1.1714
7
v5
61
2.856
.7760
9
12.9
v6
64
2.611
.7174
v7
6.823
1.6809
1
v8
46.033
9.3559
v9
4.759
.8319
v10
68
2
2.9
v11
v12
v13
69
1.4
v14
a.Numberofcasesoutsidetherange(Q1-1.5*IQR,Q3+1.5*IQR).
/TTESTPROBPERCENT=5
以各个变量的缺失和不缺失为分组分别对各个变量进行t检验,用于检验变量的缺失模式是否会影响其他变量(表6截取自部分结果),如根据变量v1的缺失和不缺失分组,变量v4、v5、v8、v9都有显著差异,表明v1的缺失模式可能影响都这些变量。
表6
SeparateVariancetTestsa
t
.
-.3
1.6
2.4
1.7
-1.0
38.2
17.5
45.0
24.1
41.1
25.9
24.4
27.2
P(2-tail)
.757
.126
.019
.008
.101
.316
.016
.015
#Present
39
40
44
43
#Missing
18
20
Mean(Present)
1.921
8.255
5.373
3.056
2.707
6.665
48.209
4.948
Mean(Missing)
1.994
7.469
4.695
2.378
2.400
7.200
40.833
4.321
-.4
-.1
-2.7
-4.5
-2.3
-1.5
-1.2
11.9
12.0
16.4
18.1
11.4
23.1
.700
.000
.038
.155
.255
.147
51
50
54
52
10
12
11
3.977
8.057
4.982
2.694
2.519
6.682
45.462
4.706
4.130
8.089
5.958
3.591
3.110
7.540
49.333
5.009
语句4:
/DPATTERNDESCRIBE=v1v2v3v4v5v6v7v8v9
/MPATTERNNOSORTDESCRIBE=v1v2v3v4v5v6v7v8v9
/TPATTERNNOSORTPERCENT=1DESCRIBE=v1v2v3v4v5v6v7v8v9
用三种方法描述缺失模式。
分别为每个被试的缺失模式(表7截取部分结果)、有缺失值被试的缺失模式(表略)、按相同缺失模式的被试呈现(表略)
表7
DataPatterns(allcases)
Case
MissingandExtremeValuePatterns
201
.0
202
14.3
S
203
204
3
205
7.1
206
207
208
209
210
50.0
语句5:
/LISTWISE
/PAIRWISE
/EM(TOLERANCE=0.001CONVERGENCE=0.0001ITERATIONS=100)
/REGRESSION(TOLERANCE=0.001FLIMIT=4.0NPREDICTORS=3ADDTYPE=RESIDUAL).
使用LISTWISE、PAIRWISE、EM和REGRESSION方法对缺失值进行插补,并统计插补后的均值(表8)、各变量相关矩阵(表9)、方差、协方差等(其余表格均略)
表8
SummaryofEstimatedMeans
Listwise
4.019
8.354
5.269
2.981
2.600
6.754
48.308
4.896
AllValues
EM
3.686
2.104
8.019
5.178
2.848
2.630
6.932
45.791
4.737
Regression
3.866
2.022
7.966
5.129
2.855
2.591
6.959
45.464
4.712
表9使用EM插补后变量间的相关矩阵。
值得注意的是,脚注的Little’sMCARtest检验了缺失模式是否为完全随机,当显著值大于0.05,表明该缺失模式为MCAR。
表9
EMCorrelationsa
-.295
.407
-.435
.136
.352
-.145
.623
.548
-.010
.436
.144
.301
-.110
.755
.330
-.203
.350
-.328
.415
.102
.420
.568
.225
.513
.197
.670
-.179
.640
-.040
.583
.355
.540
.182
-.236
.674
a.Little'
sMCARtest:
Chi-Square=198.533,DF=180,Sig.=.164
语句6:
Countnmiss=v2tov14(missing).
selectif(nmissle5).
v2v3v4v5v6v7v8v9v10v11v12v13v14
删除V1和缺失值大于5的被试共6个,再进行上面介绍的步骤。
表格略