SPSS课件第8章Word格式.docx
《SPSS课件第8章Word格式.docx》由会员分享,可在线阅读,更多相关《SPSS课件第8章Word格式.docx(38页珍藏版)》请在冰点文库上搜索。
![SPSS课件第8章Word格式.docx](https://file1.bingdoc.com/fileroot1/2023-5/4/1fe38623-3de4-42f7-ae0e-10b98e2bf213/1fe38623-3de4-42f7-ae0e-10b98e2bf2131.gif)
关于观测变量和控制变量,有些读者不会区分,我们简单说明如下:
Ø
观测变量是连续变量,而控制变量取值一般是有限的几个水平,不能去很多个值,即从变量尺度来看,观测变量是间隔尺度,而控制变量是名义尺度或顺序尺度变量。
观测变量一般是变量取值比较随机,不容易控制的量,它的取值只能进行观测记录;
而控制变量是相对取值易于控制、能确定取值的变量。
方差分析分析思路是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。
对观测变量有显著影响的控制变量中,还需要分析出控制变量的不同水平及水平的交互搭配是如何影响观测变量的。
具体来说,方差分析认为观测变量的变化受两方面的因素的影响:
第一类是控制变量不同水平所产生的影响;
第二类是控制变量以外的随机因素(随机变量)所产生的影响。
这里随机因素是指认为很难控制的因素,包含实验过程中的抽样误差,以及许多影响细微的因素。
将第一类因素的影响称为系统误差,将第二类因素的影响称为随机误差。
如果控制变量的不同水平对观测变量产生显著影响,那么观测变量在控制变量的不同水平上取值的平均数一定会发生变化;
反之,如果控制变量对观测变量不产生影响,那么在控制变量的不同水平上观测变量取值的平均数将不会有显著差异。
如果将控制变量的不同水平上观测变量取值看作是独立的总体,可以看到方差分析就是多独立总体的均值检验问题,如果均值有差异,说明控制变量是影响观测变量的主要因素,此时称观测变量主要受系统误差影响;
如果均值无显著差异,说明随机变量是影响观测变量的主要因素,此时称观测变量不存在系统误差或称观测变量主要受随机误差影响。
关于如何检验系统误差,方差分析中控制因素个数不同检验方法也有一些差别,在8.2节和8.3节中将详细介绍。
总体说来都是利用F统计量和F分布来完成的。
8.1.2方差分析的应用条件
在应用上面方差分析的全过程时,我们需要强调必须满足下面的条件:
第一、观测变量在控制变量各水平上的取值即各总体必须满足正态分布
方差分析是一种参数检验的方法,既然是参数方法,就对总体分布有着假定,在方差分析中,假定各总体的分布是正态分布,这也是能够推导出F统计量服从F分布的基础,而SPSS对P值是依据F分布计算的。
一旦总体不服从正态分布,那么F统计量自然不再服从F分布,自然SPSS给出的P值对于统计检验来说将不再有任何意义。
因此在进行方差分析之前,需要验证各总体的分布是否是正态分布,验证的方法可以使用Q-Q图,也可以使用第6章讲述的单样本非参数K-S检验。
第二、观测变量各总体的方差应该相同
这个条件统计上称为方差齐性,这个条件对于推导F统计量的分布以及其自由度也是非常重要的,如果这个条件得不到满足,那么F统计量也不再服从F分布,其自由度也不再是理论上推导出来的自由度了。
同样SPSS给出的P值对于统计检验也将不可用。
不过相比较而言,这个条件对假设检验的影响比第一个条件要小一些。
第一个条件不满足,完全不能用方差分析,而第二个条件不满足,还可以利用SPSS计算出的统计量的值,根据修正的自由度手工计算准确的概率P值,完成假设检验。
第三、控制变量一定是取值有限的名义尺度或顺序尺度变量
控制变量的各水平,即控制变量的各取值决定了方差分析中假设检验的总体个数,只有控制变量取少数几个值时,才能保证每个总体有充足的样本数去计算样本均值和样本方差;
一旦总体个数太多,那每个总体内的样本数就会减少,计算的样本均值和样本方差可能会出现较大的偏差,将会影响假设检验整体的精度。
这个条件对假设检验的影响最小,即使不满足我们也能采取一些方法使得方差分析能够完成。
8.1.3应用条件不满足的处理办法
从上面的条件可以看出,对控制变量有一个条件,对观测变量有两个条件。
其中对观测变量的条件不满足对方差分析影响大,而对控制便利的条件不满足对方差分析影响小。
下面我们就根据对假设检验的影响程度从小到大的顺序说明三个条件不满足我们该如何处理。
当第三个条件不满足即控制变量是间隔尺度变量时,可以利用变量重赋值功能,将控制变量进行区间划分,生成一个新的顺序尺度变量,此时以新生成的变量作为控制变量,就能够完成方差分析的假设检验了。
从上面的处理办法可以看出这个条件无关大局,如果控制变量不满足条件只是多一道变量预处理过程。
当第二个条件不满足即各总体方差不齐时,严格说来只要总体满足正态分布,还是可以进行方差分析,此时有两个处理方法:
一是利用SPSS计算出的组内方差和组间方差值,手工构造新的统计量和推导新的统计量的分布,在进行统计决策;
二是对方差较小的总体样本进行等比例放大,比例系数就是两个总体样本标准差的比值,对样本进行处理以后,也可以进行方差分析。
上述两个方法第一个方法比较准确,但是需要专业的统计知识,而且新的统计量P值需要手工计算,可实施性较差;
第二个方法比较容易实行,但是会影响方差分析一定的精度,因为这相当于人为放大了一部分总体的方差,这必然对组内方差和组间方差有影响,当总体数目较多(四个以上)时,相对来说给便一个总体的方差对整个组内方差和组间方差影响较小,可以采用这种方法。
当第一个条件不能满足时,就不能实行方差分析了,如果要比较各总体的均值和分布是否相同,可以采用第6章多独立样本非参数检验的方法。
推荐使用Kruskai-Wallis检验。
8.2单因素方差分析
根据方差分析中根据控制变量的个数可以分成单因素方差分析、多因素方差分析和协方差分析。
当控制变量是一个变量时,称为单因素方差分析,这是所有方差分析中最简单的,我们就从单因素方差分析开始讲解方差分析的具体步骤。
8.2.1引例:
单因素方差分析概述
在本小节中,我们还是通过一个具体的例子来加深对单因素方差分析的理解:
例8-1在研究工作和工资的问题时,有一个有趣的现象:
随着年龄的增长,工资也会随着增长,但是是否这一现象对于所有的职业都存在呢?
本书收集的3000个护士工资的数据(数据见光盘8-1.sav),请分析年龄是否对工资有显著的影响。
我们首先研究一下数据8-1.sav,发现年龄分为三个阶段:
18-30岁是年轻护士,31-45岁是中年护士,45-65岁是老年护士。
如果我们把年龄作为控制变量,显然它有三个水平,这是一个三总体的均值检验问题,由于控制变量只有一个,可以利用单因素方差分析来解决这个问题。
将三个年龄段的护士看作三个总体,护士按小时的工资就是观测变量,需要检验的是三个总体的护士按小时工资的均值是否有显著差异,如果工资均值有显著性差异,则说明护士的工资受到控制因素年龄的影响,存在系统误差;
如果均值没有显著差异,则说明护士工资主要受随机因素的影响,不存在系统误差,当然也就说明年龄对工资没有影响。
那么如何判断观测变量即工资是否受系统误差的影响呢?
这就要从方差分析的数序模型和检验统计量构造来说明了。
方差分析的数学模型是:
假设在控制变量各个水平上,观测变量样本取值为:
其中i代表控制变量的第i个水平,即第i个总体,
表示第i个总体的均值,即年龄段的平均工资,
表示第i个总体第j个样本受随机因素的影响,是服从正态分布的随机变量。
而
表示第i个总体中的样本数,k表示总体数,本例中k=3。
将各总体均值求平均,得到总的均值
如果各总体均值没有差异,都等于
,那么样本取值就只受到随机因素
的影响,如果各总体均值不相等,那么样本取值就同时受到总体均值和随机因素的影响,方差分析要检验的就是样本取值有没有受各总体均值的影响,当然在构造统计量时,需要用样本统计量
和
去估计各总体均值
和总均值
。
假设检验的原假设是:
,与之相应的备择假设是:
即原假设是各总体均值相等,即观测变量主要受随机误差的影响。
考虑观测变量的样本方差构成:
从公式看,样本方差由两部分构成,一部分即组内方差,即
,记为SSA;
另一部分为组间方差即
,记为SSE。
如果原假设为真,那么样本方差的主要部分将是组内方差,组间方差较组内方差来说将会很小,同样,如果原假设不真,那么样本方差的主要部分将是组间方差,组间方差较组内方差来说就会较大,据此,将两方差相除,构造统计量:
式中MSA和MSE分别称为组间和组内的平均方差。
在原假设为真的条件下,统计量服从自由度为k-1和n-k的F分布。
如果F统计量观测值较小,说明组内方差(分母)大,组间方差(分子)小,此时不能拒绝原假设;
相反如果F统计量观测值较大,说明组间方差大(分子)大,组内方差(分母)小,此时就要拒绝原假设,认为控制变量各水平对观测变量有显著影响了。
SPSS会自动计算F统计量的观测值以及相应的概率P值,根据P值就可以完成统计检验了。
8.2.2单因素方差分析的SPSS实现
在8.1.3我们已经指出,在进行方差分析之前,需要验证方差分析需要满足的三个条件,现在第三个条件已经满足,不用验证;
重点来验证前面两个条件。
对于正态分布的验证,我们利用第6章单样本K-S检验来完成,由于这里分别要检验三个年龄段样本的正态性,因此需要将数据集文件按照年龄段进行拆分,具体操作我们简要列出,留给读者自行对照第2章内容完成,作为对前面内容的复习和巩固。
文件拆分操作:
Step1:
选择【Data】菜单→【SplitFile】菜单
Step2:
选择CompareGroups单选按钮,将变量“年龄范围(agerange)”选入GroupBasedon变量框中,设置完成后点击
完成操作。
文件拆分以后就可以完成单样本K-S非参数检验,操作请读者参照第6章相关内容自行完成,这里限于篇幅,不列出全部结果,仅仅列出关键结果:
表8-1每小时薪水Statistics
8-30
Std.Deviation
3.94875
Variance
15.593
31-45
3.90906
15.281
46-65
4.05968
16.481
表8-2One-SampleKolmogorov-SmirnovTest
年龄范围
每小时薪水
18-30
N
468
Kolmogorov-SmirnovZ
1.045
Asymp.Sig.(2-tailed)
.225
1582
.932
.350
.861
.771
.592
a.TestdistributionisNormal.
b.Calculatedfromdata.
从表8-2的结果来看,三个年龄段的总体样本数分别是468、1582和861,有89个无收入数据的缺失样本。
三个年龄段的检验结果均不显著,说明三个年龄段的总体分布和正态分布没有显著差异,满足第一个条件。
关于三个总体方差齐性的条件,我们作出三个总体的样本方差统计量观测值,从表8-1看出,无论是标准差还是方差,三个总体都是非常接近的,可以认为满足第三个条件,因此可以进行方差分析。
下面我们具体来讲单因素方差分析的操作。
首先解除文件拆分,再进行如下操作:
选择【Analysis】菜单→【CompareMeans】菜单→【One-wayANOVA】菜单
ANOVA是AnalysisofVariance的缩写,代表方差分析。
在图8-1的单因素方差分析主对话框中,左边是SPSS数据集文件中的所有变量列表,中间是DependentList是观测变量列表,下面Factor框中是控制因素列表,由于是单因素方差分析,因此控制因素只能选择一个变量,而观测变量可以是多个,SPSS将会按照同一个控制因素分别对这些观测变量进行方差分析。
右边有三个按钮是用于方差分析进一步分析的,我们将在下一小节讲到它们。
选择观测变量和控制因素
将观测变量“每小时薪水(hourwage)”选入观测变量框DependentList,将变量“年龄范围(agerange)”选入控制因素变量框Factor,设置完成后点击
图8-1单因素方差分析主对话框
8.2.3单因素方差分析的进一步分析
利用以上的分析,我们就可以得到三个总体均值是否显著差异的结果,也就知道了年龄对工资是否有显著影响。
如果方差分析检验结果是不显著的,说明各水平上观测变量均值没有显著差异,没有比较各水平的必要,自然方差分析到此终止;
但是,如果方差分析检验结果是显著的,即各年龄段总体工资的均值是不同的,那么我们就还想知道更多的结论,例如:
哪个年龄段平均工资最高,哪个年龄段平均工资最低,两个年龄段的平均工资差异是多少,这个差异在统计上是否是显著的等等结论,这个就需要利用方差分析的进一步分析功能。
方差分析的进一步分析主要是回答这样一些问题:
第一、观测变量在控制变量各水平上,即各总体上,其平均值差异是多少,这个差异是否统计显著;
第二、观测变量在控制变量各水平上,其方差是否相等,即方差齐性是否满足;
第三、其他的一些检验问题,诸如先验对比检验,趋势检验等。
这三个问题SPSS分别用三个按钮来提供相应的功能,第一个按钮
提供先验对比检验、趋势检验等功能,解决第三个问题;
第二个按钮
提供多重比较检验功能,解决第一个问题;
第三个按钮
提供方差齐性检验功能,解决第二个问题。
下面我们分别对这三个按钮的方法进行说明。
1.多重比较检验
多重比较检验的原假设是:
观测变量在指定两水平上均值没有显著差异。
接下来就是选择统计量,SPSS给我们提供了非常丰富的多重比较检验统计量,我们仅介绍几个重要的统计量。
LSD方法:
采用最小显著性差异法(LeastSignificantDifference)。
其构造如下面的公式,其特点是检验敏感性高,指定的两水平i和j只要存在一定程度的差异就可以被检验出来,缺点是因为敏感,犯第一类错误概率较大。
统计量式中MSE表示平均组内方差,统计量服从自由度为n-k的t分布。
Bonferroni方法:
和LSD方法基本相同,不同之处是Bonferroni方法对犯第一类错误的概率进行了控制,将每次检验的显著水平除以两两检验的总次数N,从而控制了犯第一类错误的概率。
Tukey方法:
Tukey方法采用q统计量,其构造为:
式中r为各水平下样本个数。
可见Tukey方法要求各水平下样本个数相等,这点要求比LSD方法苛刻,例如本例中就不能采用Tukey方法。
Tukey方法的q统计量服从自由度为k和n-k的q分布。
S-N-K方法:
S-N-K(StudentNewman-Keuls)方法是一种高效划分相似子集的方法。
该方法也要求各水平样本数相等,统计量为:
,
Z统计量近似服从正态分布。
综合各种方法的条件,本例中只适合用LSD方法和Bonferroni方法。
2.方差齐性检验
SPSS对于方差齐性检验采用的是方差同质性检验(homogeneityofvariance)。
其具体检验过程和第5章两独立样本t检验中的方差齐性检验相同,此处就不再赘述了。
3.先验对比检验和趋势检验
先验对比检验是检验两组水平的线性组合均值是否有显著差异,例如,本例中有3个水平的均值
,可以检验
是否有显著差异,此时需要指定系数
,注意所有系数求和必须为0,这种先指定系数,再对线性组合进行检验的检验方法就称为先验对比检验。
趋势检验:
当控制因素是顺序尺度变量时,随着控制变量的增大,趋势检验能检验观测变量的总体变化趋势是如何的,是线性变化,还是二次或三次变化。
趋势检验有助于我们把握观测变量在各水平间的变化规律。
下面我们来看单因素方差分析进一步分析的具体操作:
1.多重比较检验操作
在图8-1的单因素方差分析主对话框中,点击按钮
进入如图8-2的对话框,在对话框中根据本例的特点选择LSD和Bonferroni方法,点击
按钮回到主对话框。
2.方差齐性检验操作
在图8-1主对话框中,点击
按钮,进入如图8-3的对话框,在对话框Statistics复选框组中勾选Homogeneityofvariancetest复选框,点击
3.先验对比检验和趋势检验操作
按钮进入图8-4子对话框,勾选Polynomial复选框,在Degree下拉菜单中选择Quadratic,表示进行二次趋势检验,在下面的Cofficients框中依次输入先验对比检验系数1、-0.5、-0.5,点击
图8-2PostHoc子对话框图8-3Option子对话框图8-4Contrasts子对话框
所有操作完成后,设置完成后点击
8.2.4单因素方差分析的结果分析
下面我们先看单因素方差分析以及进一步分析的结果:
Oneway
表8-3每小时薪水TestofHomogeneityofVariances
LeveneStatistic
df1
df2
Sig.
.593
2
2908
.553
从表8-3我们可以看出观测变量在控制变量各水平上方差统计量观测值为0.593,自由度为2和2908,对应的P值为0.553,显然P值远远大于显著水平0.05,不能拒绝原假设,认为观测变量在各水平方差齐性得到满足,这也从统计显著性的角度再次证明了我们在表8-1看到的各水平样本方差观测值差异较小,从而各水平总体方差相等的结论,进一步证明了数据是满足方差分析第二个条件的。
下面是单因素方差分析的结果,结果主要在表8-5中,我们看到组间方差由于考察总体不同的变化趋势出现不同的值,对于方差分析,其组间方差1017.69,组内方差为45914.297,平均组间方差和平均组内方差分别为508.845和15.668,F统计量观测值为32.44,对应的概率P值接近0,显然应该拒绝原假设,认为观测变量在控制变量各水平上均值显著差异,也就是说年龄会影响工资。
另外根据趋势检验的结果,线性趋势是显著的,但是二次趋势不显著。
表8-5每小时薪水ANOVA
Squares
df
MeanSquare
F
BetweenGroups
(Combined)
1017.690
508.845
32.440
.000
LinearTerm
Unweighted
1002.370
1
63.903
Weighted
1007.272
64.216
Deviation
10.419
.664
.415
QuadraticTerm
WithinGroups
45614.257
15.686
Total
46631.948
2910
表8-6每小时薪水MultipleComparisons
(I)年龄范围
(J)年龄范围
Difference(I-J)
Std.Error
95%ConfidenceInterval
werBound
Bound
LSD
-1.03231*
.20840
-1.4409
-.6237
-1.81824*
.22745
-2.2642
-1.3723
1.03231*
.6237
1.4409
-.78593*
.16773
-1.1148
-.4570
1.81824*
23
2.2642
.78593*
16773
.4570
1.1148
Bonferroni
-1.5315
-.5331
-2.3631
-1.2734