教育多元统计学与SPSS软件5方差分析.docx
《教育多元统计学与SPSS软件5方差分析.docx》由会员分享,可在线阅读,更多相关《教育多元统计学与SPSS软件5方差分析.docx(89页珍藏版)》请在冰点文库上搜索。
教育多元统计学与SPSS软件5方差分析
第五章方差分析
方差分析是由费歇尔(R.A.Fisher)提出的,它与t检验相比优越之处在于可以同时检验多个平均数之间的差异,并且可以解释几个因素水平之间的交互作用。
如教学效果受教法、教材、学生接受能力等诸多因素的影响,要研究这些因素对教学效果的影响程度、分析它们之间交互作用的大小,t检验方法就无能为力了,而方差分析正是为解决这类问题提供的一种有效的方法。
方差分析分为单因素、多因素方差分析、协方差分析、多元方差分析、重复试验设计的方差分析与方差成分分析。
方差分析的内容较多,一般在基本统计中介绍单因素方差分析,其他方法介绍得较少,而本章主要介绍这些方法。
第一节方差分析的基本概念
1.常用术语
1.1因变量
试验中要观测的量,即所要考察的结果。
1.2因素
影响因变量的指标,也称为自变量。
1.3水平
因素在试验时所分的等级或因素不同的状态,可能是数量的,如年龄,也可能是分类的,如性别。
1.4主效应
试验中由一个因素的不同水平引起的差异。
1.5简单效应
一个因素的水平在另一个因素的某个水平上的差异。
1.6处理效应
试验的总变异中由自变量引起的差异,主效应、简单效应、交互作用均为处理效应。
1.7交互作用
当一个因素的水平在另一个因素的不同水平上变化趋势不一致时,称两个因素之间存在着交互作用。
或者:
若一个因素A对因变量的影响与另一个因素B取什么水平有关,就称因素A与因素B之间存在着交互作用,即除了因素A与B单独的作用外,它们的不同水平的组合对因变量产生的作用。
注:
当两个因素A与B之间的交互作用的方差很小、比误差项的方差还小时,可以认为A与B之间无交互作用,相应的平方和只不过是误差的一种反映,可将该项与误差项合并,相应的自由度也合并,以提高分析的精度。
2.基本假设
2.1正态分布
2.2变异的同质性,即各个组的变异是相等的:
σ12=σ22=……σk2
以两个总体为例说明,所用统计量为:
S12
F=
S22
一般情况下无差异。
2.3独立性
指试验中一个被试的观测值应该独立于其他被试的观测值。
3.样本含量
样本中所包含的个体数称为样本含量,用n表示。
统计分析在于探讨统计规律,因此,n最好取大一些,若试验研究设计得好,有严密的试验控制,每组受试者至少15人,最好在30人以上。
第二节单因素方差分析
对于影响一个因变量的众多因素,若仅使一个因素发生变化,而使其他因素均保持不变(或控制在一定范围内),分析这一因素对因变量的影响是否显著,属于单因素方差分析问题。
1.方法介绍
设因素A有m个水平,在每一水平下做k次(每一水平下的次数可以不等,通常用ki表示)试验,用S总表示所有数据与总平均数的总的离差平方和,它可以分解为:
S总=SA+Se
SA称为组间平方和,反映了因素A的各个不同水平所引起的差异,即主效应;Se称为组内平方和,反映了试验过程中随机误差的大小,即随机效应。
对给定的显著性水平α,比较F与Fα,若F>Fα,则认为因素A对因变量的影响是显著的;否则,影响不显著。
F的计算公式为:
SA/(m-1)
F=
Se/[m(k-1)]
其中,SA、Se分别为组间平方和、组内平方和,m为水平个数,k为试验次数。
2.SPSS软件操作步骤
选择“Analyze”→“CompareMeans”→“One-WayANOVA”项,弹出如图5.2.1的对话框。
图5.2.1单因素方差分析对话框
2.1DependentList框
存放因变量。
2.2Factor框
存放自变量。
2.3Contrasts按钮
图5.2.2Contrasts对话框
⑴Polynomial项
激活“Degree”,用于均值的多项式比较。
Linear:
一阶,即线性;Quadratic:
二阶;Cubic:
三阶;4th:
四阶;5th:
五阶。
⑵Coefficients框
在该框中输入多项式各组均值的系数,单击“Add”按钮追加、单击“Change”按钮改变、单击“Remove”按钮删除。
一组系数输入结束,按“Next”按钮,进行下一组的输入,需要查看、修改前面输入的系数时按“Previous”按钮。
因素分几个水平输入几个系数。
⑶CoefficientTotal项
显示每组系数的总和。
2.4PostHoc按钮
指定一种多重比较的检验方法。
若经方差分析所得结论为无显著性差异,则只需对该结果进行分析,否则,要进行多重比较。
因为有显著性差异是针对因素的所有水平这一整体而言的,并不能判定各水平两两之间的差异均显著。
那么,究竟哪些水平之间的差异显著、哪些水平之间的差异不显著呢?
需要进行多水平之间的比较,即多重比较。
图5.2.3PostHoc对话框
⑴EqualVariancesAssumed项
方差齐性时选用该项。
该项的方法较多,实际问题中可根据需要选择,最常用的有以下几种方法。
①LSD
用t检验完成组间成对均值的比较。
②Scheffe
用F检验进行均值间的配对比较。
③S-N-K
用t检验进行均值间的配对比较。
④Tukey
用学生化极差统计量进行所有组间均值的配对比较。
⑵EqualVariancesNotAssumed项
方差非齐性时选用该项。
⑶Significancelevel框
改变显著性水平,常用的有0.05或0.01。
2.5Options按钮
图5.2.4Options对话框
⑴Statistics项
选择输出的统计量。
①Descriptive
输出样本含量、平均数、标准差、标准误、最大值、最小值、各组每个因变量的95%的置信区间。
②Fixedandrandomeffects
输出固定与随机效应模型的标准差、95%的置信区间等结果。
③Homogeneity-of-variance
输出方差齐性检验结果。
④Brown-Forsythe
以“Brown-Forsythe”为统计量,检验各组的均值是否相等。
⑤Welch
以“Welch”为统计量,检验各组的均值是否相等。
⑵Meansplot项
输出均数分布图。
⑶MissingValues项
选择缺失值的处理方法。
①Excludecasesanalysisbyanalysis
删除要进行检验的数据中含有缺失值的数据。
②Excludecaseslistwise
删除所有含有缺失值的数据。
3.应用举例
例5.2.1为了探讨不同教法对英语教学效果的影响,将一个班分成3组,接受3种不同的教法,试问不同的教法之间是否存在着差异。
表5.2.13组学生英语成绩
第一组
第二组
第三组
78.00
61.00
80.00
72.00
72.00
70.00
66.00
65.00
76.00
69.00
66.00
72.00
70.00
62.00
72.00
因变量:
英语成绩;自变量:
教法;3种水平:
3种不同的教法。
这是一个单因素3水平的试验。
将3个水平的数据按列输入(变量为x),第二列标明数据的水平(变量为a)。
选择“Analyze”→“CompareMeans”→“One-WayANOVA”项,将变量x移入“DependentList”框、变量a移入“Factor”框。
按“PostHoc”按钮,在“EqualVariancesAssumed”中选择“Scheffe”与“Tukey”方法,取“Significancelevel”的默认值0.05。
按“Options”按钮,在“Statistics”中选择“Descriptive”项,输出样本含量、平均数、标准差、标准误、最大值、最小值、各组每个变量的95%的置信区间,选择“Homogeneity-of-variance”,输出方差齐性检验结果,选择“Meansplot”,输出均数分布图。
计算结果如下。
表5.2.2平均数标准差等结果
Descriptives
N
Mean
Std.Deviation
Std.Error
95%ConfidenceIntervalforMean
Minimum
Maximum
LowerBound
UpperBound
1.00
5
71.000
4.47214
2.00000
65.4471
76.5529
66.00
78.00
2.00
5
65.200
4.32435
1.93391
59.8306
70.5694
61.00
72.00
3.00
5
74.000
4.00000
1.78885
69.0333
78.9667
70.00
80.00
Total
15
70.067
5.47027
1.41242
67.0373
73.0960
61.00
80.00
表中列出了每组人数、平均数、标准差、标准误、95%的置信区间、最小值、最大值。
表5.2.3方差齐性检验结果
TestofHomogeneityofVariances
LeveneStatistic
df1
df2
Sig.
0.007
2
12
0.993
P=0.993>0.10,方差齐性。
表5.2.4方差分析结果
ANOVA
SumofSquares
(离差平方和)
df
MeanSquare
(均方)
F
Sig.
BetweenGroups(组间)
200.133
2
100.067
5.488
0.020
WithinGroups(组内)
218.800
12
18.233
Total(总和)
418.933
14
P=0.02<0.05,各教法之间的差异显著。
若差异不显著,说明各种教法的效果基本一样,实际教学中,可选择一种较为简单的方法。
表5.2.5多重比较结果
DependentVariable:
X
(I)A
(J)A
MeanDifference(I-J)
Std.Error
Sig.
95%ConfidenceInterval
LowerBound
UpperBound
TukeyHSD
1.00
2.00
5.8000
2.70062
0.122
-1.4049
13.0049
3.00
-3.0000
2.70062
0.526
-10.2049
4.2049
2.00
1.00
-5.8000
2.70062
0.122
-13.0049
1.4049
3.00
-8.8000*
2.70062
0.017
-16.0049
-1.5951
3.00
1.00
3.0000
2.70062
0.526
-4.2049
10.2049
2.00
8.8000*
2.70062
0.017
1.5951
16.0049
Scheffe
1.00
2.00
5.8000
2.70062
0.142
-1.7282
13.3282
3.00
-3.0000
2.70062
0.556
-10.5282
4.5282
2.00
1.00
-5.8000
2.70062
0.142
-13.3282
1.7282
3.00
-8.8000*
2.70062
0.022
-16.3282
-1.2718
3.00
1.00
3.0000
2.70062
0.556
-4.5282
10.5282
2.00
8.8000*
2.70062
0.022
1.2718
16.3282
*Themeandifferenceissignificantatthe0.05level.
两种多重比较方法的结果:
在0.05显著性水平下,教法2与教法3之间的差异显著,而教法1与教法2、教法1与教法3之间的差异不显著。
表5.2.6多重比较齐次性(均衡)子集结果
A
N
Subsetforalpha=0.05
1
2
TukeyHSD
2.00
5
65.2000
1.00
5
71.0000
71.0000
3.00
5
74.0000
Sig.
0.122
0.526
Scheffe
2.00
5
65.2000
1.00
5
71.0000
71.0000
3.00
5
74.0000
Sig.
0.142
0.556
Meansforgroupsinhomogeneoussubsetsaredisplayed.
aUsesHarmonicMeanSampleSize=5.000.
该表是表5.2.5的另一种表达形式,给出了差异不显著的结果。
图5.2.5均值分布图
由图可以看出各组均数的分布情况。
第三节双因素方差分析
实际问题中,影响试验结果的因素往往不只一个,而是多个,这就需要进行多因素方差分析。
本节介绍双因素方差分析,其基本思想是:
若某一因素的几个水平能引起试验的结果差别较大,该因素认为是重要的;结果相近,该因素认为是不重要的。
通过进行双因素方差分析,可以检验两个因素对试验结果的影响是否显著、哪个因素是主要的以及它们之间有无交互作用等。
1.方法介绍
1.1无交互作用
设有A、B两个因素,分别有m、n个水平,记为:
A1,A2,…,Am;B1,B2,…,Bn
在每组水平下各做1次试验,测得数据xij,见表5.3.1。
假设数据独立,服从正态分布,检验:
HA:
μ1=μ2=…=μmHB:
μ1=μ2=…=μn
是否显著。
S总=SA+SB+Se
为总平方和,SA、SB分别刻划因素A、B的主效应,Se刻划随机效应。
自由度的关系为:
f总=fA+fB+fe
交互作用在无重复试验下与试验误差混在一起,无法区分。
因此,在条件许可的情况下,尽量安排重复试验,以减轻误差的干扰,提高分析精度。
表5.3.1无交互作用双因素方差分析数据
B
A
1
2
…
N
1
x11
x12
…
x1n
2
x21
x22
…
x2n
…
…
…
…
…
m
xm1
xm2
…
xmn
1.2有交互作用
设有A、B两个因素,分别有m、n个水平,在每组水平下各做d次试验,测得数据xijk,见表5.3.2。
检验:
HA:
μ1=μ2=…=μmHB:
μ1=μ2=…=μnH3:
γ11=γ12=…=γmn
是否显著。
γij反映的是交互效应。
S总=SA+SB+SAB+Se
为总平方和,SA、SB分别刻画因素A、B的主效应,SAB刻画因素的交互效应,Se刻画随机效应。
自由度的关系为:
f总=fA+fB+fAB+fe
表5.3.2有交互作用双因素方差分析数据
B
A
1
…
J
…
n
1
x111x112…x11d
…
x1j1x1j2…x1jd
…
x1n1x1n2…x1nd
…
…
…
…
…
…
I
xi11xi12…xi1d
…
xij1xij2…xijd
…
xin1xin2…xind
…
…
…
…
…
……
m
xm11xm12…xm1d
…
Xmj1xmj2…xmjd
…
Xmn1xmn2…xmnd
2.SPSS软件操作步骤
选择“Analyze”→“GeneralLinearModel”→“Univariate”项。
弹出如图5.3.1的对话框。
2.1DependentVariable框
存放因变量。
2.2FixedFactors框
存放分组(固定)变量(因素)。
图5.3.1双因素方差分析对话框
2.3RandomFactors框
存放随机变量(因素)。
2.4Covariates
存放协变量。
2.5WLSWeight
存放加权变量。
2.6Model按钮
设定模型。
⑴FullFactorial项
建立全模型,包括所有变量的主效应与所有的交互效应,选择此项后,无需进行其他操作,按“continue”返回主对话框。
⑵Custom项
建立自定义模型,激活下面各操作框。
选择该项后,Factors&框中列出可以作为变量的变量名,括号中标有字母“F”,也可列出作为协变量的变量名,括号中标有字母“C”,这些变量均为用户在主对话框中定义的。
选中变量名,按“BuildTerms”下方的箭头,移入“Model”框。
⑶BuildTerms项
①Interaction
指定任意的交互效应。
②Maineffecrs
指定主效应。
③All2-Way
指定所有2维交互效应。
图5.3.2Model对话框
④All3-Way
指定所有3维交互效应。
……
⑷SumofSquares项
确定平方和的分解方法。
一般情况下选择“TypeⅢ”,对F的较高水平效应参数作对比时选择“TypeⅣ”。
⑸Includeinterceptinmodel项
回归模型中包含截距项,若能假设数据通过原点,可以不选该项。
2.7Contrast按钮
均值比较。
图5.3.3Contrast对话框
⑴Factors框
列出了在主对话框中所选的因素,括号中的是对比方法。
⑵ChangeContrast项
①Contrast
选择对比方法。
None:
不进行均数比较。
Deviation:
比较预测变量或因素的每个水平的效应,选择“Last”或“First”作为参考水平。
Simple:
除了作为参考的水平外,对预测变量或因素的每个水平均与参考水平进行比较,选择“Last”或“First”作为参考水平。
Difference:
除了第一个水平外,对预测变量或因素的每个水平均与前面各水平的平均效应进行比较。
Helmert:
除了最后一个水平外,对预测变量或因素的每个水平均与后续各水平的平均效应进行比较。
Repeated:
对相邻的水平进行比较,除了第一个水平外,对预测变量或因素的每个水平均与前面的水平进行比较。
Polynomial:
进行多项式比较,包含一次效应、二次效应等。
②Chang按钮
按“Chang”按钮,选中的(或改变了的)对比方法会显示在“Factors”框选中的因素后面的括号中。
③ReferenceCategory项
当选中了“Deviation”与“Simple”项后,激活“ReferenceCategory”项:
Lsat:
确定最后一个水平。
First:
确定第一个水平。
2.8Plots按钮
图5.3.4Plots对话框
该框是为描绘变量的均数分布设计的,利用图形,可以帮助判断水平之间是否有交互作用,平行线表明无交互作用,否则,认为有交互作用。
⑴Factors框
列出主对话框所选的变量名。
⑵HorizontalAxis项
横坐标。
⑶SeparateLines项
纵坐标。
⑷SeparatePlots项
散点框。
⑸Plots项
①Add
移入。
②Change
修改。
③Remove
删除。
2.9PostHoc按钮
指定一种多重比较检验方法,说明见“单因素方差分析中的解释”。
2.10Save按钮
图5.3.5Save对话框
⑴PredictedValues项
预测值选项。
①Unstandardized
保存非标准化预测值。
②Weighted
保存加权的非标准化预测值,只有在主对话框中选择了“WLSWeight”项时才可选。
③Standarderror
保存预测值的标准误差。
⑵Diagnostics项
设置诊断选项。
①Cookˊsdistance
保存Cook距离,衡量剔除回归模型中的某个因素时残差的变化量。
②Leveragevalues
保存非中心化Leverage(杠杆)值,反映每个观测值对模型拟合程度的影响。
⑶Residuals项
设置与残差有关的选项。
①Unstandardized
保存非标准化残差。
②Weighted
保存加权的非标准化残差,只有在主对话框中选择了“WLSWeight”项时才可选。
③Standardized
保存标准化残差。
④Studentized
保存学生化残差。
⑤Deleted
保存剔除残差,即变量与校正预测值之差。
⑷SavetoNewFile项
设置统计量保存方式选项。
Coefficientstatistics:
将协方差矩阵等项保存到指定的文件中,可以作为新数据文件被调用。
2.11Options按钮
选择输出项。
⑴EstimatedmarginalMeans项
估测边际均值栏。
①FactorsandFactorInteractions
列出可供选择的变量与交互作用项。
②DisplayMeansfor
存放左框选择的各项。
③Comparemaineffects
进行多重比较,3个选项在“PostHoc”中有介绍。
⑵Display项
设置有关输出内容选项。
①Descriptivestatistics
显示平均数、标准差等结果。
②Estimatesofeffectsize
显示F和t检验效应的大小。
③Observedpower
显示显著性水平Alpha值,在0.01到0.99之间。
图5.3.6Options对话框
④Parameterestimates
显示回归系数、标准误、t检验、95%的置信区间。
⑤Contrastcoefficientmatrix
显示变换矩阵。
⑥Homogeneitytests
显示方差齐性检验结果。
⑦Spreadvs.levelplot
显示均值-标准差图形。
⑧Residualplot
显示残差图形。
⑨Lackoffit
检查独立变量与非独立变量之间的关系是否被充分描述。
⑩Generalestimablefunction
显示可估计函数的一般形式。
⑶Significancelevel项
改变显著性水平。
3.应用举例
3.1无交互作用
例5.3.14名工人操作3台机器,1天的日产量数据见表5