SPSS17教案Word文档格式.doc
《SPSS17教案Word文档格式.doc》由会员分享,可在线阅读,更多相关《SPSS17教案Word文档格式.doc(38页珍藏版)》请在冰点文库上搜索。
4.定比变量,它与定距变量意义相近,差别在于定距变量中的0值只表示某一值,不表示没有,如在测定温度的摄氏度中,0度不表示没有温度。
b)数据的输入[DataView]
c)保存格式:
*.sav 或 *.xls
示例:
一组社会调查的数据
姓名+性别+年龄+学历+职业+收入+测试成绩1+测试成绩2
二、常规数据操作方法
l选取指定数据行[Data]à
[SelectCases]
l数据分类汇总:
i.分类变量
ii.汇总变量
l缺失值的替代
²
SeriesMean:
用该变量的所有非缺失值的均数作替代
Meanofnearbypoints:
用缺失值相邻点的非缺失值的均数替代,取多少个相邻点可任意定义
Medianofnearbypoints:
用缺失值相邻点的非缺失值的中数千替代,取多少个相邻点可任意定义
Linearinterpolation:
用缺失值相邻两点非缺失值的均值作替代
Lineartrendatpoint:
用线性拟合方式确定替代值
l数据次序确定
求大专女性的平均收入
三、变量的操作
l增减变量
l指定加权变量,例如希望了解某超市中某天售出商品的平均价格。
如果仅以各种商品的单价平均数作为平均价格是不合理的,还应考虑到各商品的销售量对平均价格的影响。
因此,对商品的销售量作为权重计算各中商品单价的加权平均数,才是我们需要求的数据。
l根据已经存在的变量建立新变量[Transform]à
ComputeVariable
l产生计数变量,例如,要对每个学生统计语文、数学、化学三门课成绩中几门在80分以上。
四、统计描述
SPSS基本统计分析是进行其他统计分析研究基础和前提。
通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的统计分析方法。
基本统计分析包括:
1.均值Mean,均值标准误差S.E.mean,是描述样本均值与总体均值之间平均差异程序的统计量。
求某班级学生在一次数学测验中平均成绩的差异程序,
99,88,79,59,54,89,79,56,89,99,23,89,70,50,67,78,89,56
2.中位数Median,把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。
它是一种位置代表值,所以不会受极端数值的影响,具有较高的稳健性。
求某班级学生身高的中位数。
174,168,164,174,176,150,183,162,171,146,189,167
3.众数Mode,是指一组数据中,出现次数最多的那个变量值。
在描述数据集中趋势方面有一定意义。
例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。
求某医院当天出生新生儿的体重的众数:
8,7,6,7,5,4,5,6,8,7,5,6,4,7,6,5.,7,4
4.全距Range:
也称极差,是数据的最大值与最小值之间的绝对差。
在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。
求某班级学生数学成绩的全距:
99,88,79,59,54,89,79,556,89,99,23,89,70,50,67,78,89,56
5.方差Variance和标准差StandardDeviation:
方差,它表示了一组数据分布的离散程序的平均值。
标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程序。
方差和标准差越大,说明变量值之间的差异越大,距离平均数这个中心的离散趋势越大。
求某班级学生数学成绩的方差和标准差:
6.四分位数Quartiles、十分位数Deciles、百分位数Percentiles:
四分位数是将一组个案由小到大或由大到小排序后,用三个点将全部数据分成四等份,与三个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。
其中Q1与Q3之间的距离的一半又称为四分位差,记为Q。
四分位差越小,说明中间的数据越集中;
四分位数越大,则意味着中间部分的数据越分散。
7.频数Frequency:
就是一个变量在各个变量值上的取值的个案数。
如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少人,就要用到频数分析。
8.峰度Kurtosis:
是描述某变量所有取值颁布形态陡缓程序的统计量。
这个统计量是与正态分布相比较的量。
l峰度=0表示其数据分布与正态分布的陡缓程序相同;
l峰度>
0表示比正态分布高峰要更加陡峭,为尖顶峰;
l峰度<
0表示比正态分布的高峰要更平坦,为平顶峰。
某班级学生的年龄分布如下所示,试求学生年龄峰度。
年龄
人数
Kurtosis=0.639>
是尖顶峰
表示年龄差距较大
18
1
19
7
20
22
21
8
2
9.偏度Skewness:
是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。
这个统计量也是与正态分布相比较的量。
l偏度=0表示其数据分布形态与正态分布偏度x相同;
l偏度>
0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;
l偏度<
0表示负偏差数值大,为负偏或左偏,有一条长屘拖在左边。
面偏度的绝对值数越大表示分布形态的偏斜程序越大。
某班级41个学生的身高分布如下表,求学生身高的分布偏度。
身高
Skewness=1.271>
右偏
身高较高的人较多
165
168
170
173
175
180
10.标准化Z分数及其线性转换。
Z分数定义:
从平均数为μ,标准差为σ的总体中抽出一个变量值χ,Z分数表示的是这个变量χ>
或<
平均数μ多少个标准差σ。
因此Z能够用来比较两个从不同单位总体中抽出的变量值。
公式:
[例] 对某校高二学生进行期中学习质量检测,语文、数学和英语成绩的平均数分别是80分、70分和85分,这三种成绩的标准差分别是10分、15分和12分。
某学生的三科成绩分别是85分、82分和90分,问:
该生这三科成绩哪一科最好?
可见,故可认为该生的数学成绩相对最好,其次为语文,再次是英语。
在标准分数Z的应用中,由于标准分数Z分值过小,并往往带有小数和负值等缺陷,在许多情形下直接使用不大合乎人们表示分数的习惯,故通常把标准分数Z通过线性变换,转到更大的标准分数量表上。
常见的有如下几种:
①教育与心理测验中的T分数:
T=50+10Z
②韦氏智力量表中各分测验的量表分:
T=10+3Z
韦氏智力量表智商(离差智商):
IQ=100+15Z
③美国大学入学考试报告分数:
CEEB=500+100Z
④为出国人员举行的英语水平考试:
EPT=90+20Z
⑤美国教育测验中心举办“托福”考试:
TOEFL=500+70Z
11.探索分析
调用此过程可对变量进行更为为深入详尽的描述性统计分析,帮称之为探索分析。
它在一般描述性统计指标的基础上,增加有关羝数据其他特征的文字与图形描述,显得更加细致与全面、有助于用户思考对数据进行进一步分析的方案。
1)探索分析的内容包括下面几个方面:
l检查数据是否有错误:
过大或过小的数据均有可能是奇异值、影响点或错误数据,往往这样的数据对分析的影响较大,不能真实反映数据的总体特征,所以就需要找出这样的数据,并分析原因,然后决定是否从分析中删除这些数据。
l获得数据分布特征:
很多分析方法对数据分布有一事实上的要求,例如,很多检验就需要数据分布服从正态分布。
因此检验数据是否符合正态分布,就决定了它们是否能用只对正态分布数据适用的分析方法。
l对数据规律的初步观察:
通过初步观察获得数据的一些内部规律,例如,两个变量间是否线性相关。
2)探索分析的考察方法
探索分析一般通过数据文件在分组或不分组的情况下,获得常用统计量和图形。
一般以图形方式输出,直观帮助用户确定奇异值、影响点、进行假设检验,以及确定用户要使用的某种统计方式是否合适。
3)正态分布检验
常用的正态分布检验是Q-Q图。
4)方差齐次性检验
对数据分析不仅需要进行正态分布检验,有时还需要比较各个分组的方差是否相同,这就要进行方差齐次性检验。
Levene检验可以对数据进行方差齐次性检验,此检验方法不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。
如果得到显著性水平<
0.05,那么就可以认定数据方差不相同。
Output:
TestofHomogeneityofVariance
方差齐次性检验
LeveneStatistic
df1
df2
Sig.显著水平
语文
BasedonMean-均值
2.687
27
.113
BasedonMedian-中位数
1.828
.188
BasedonMedianandwithadjusteddf-中位数和调整后的自由度
23.362
.189
Basedontrimmedmean-调整后的均值
2.678
从四个指标得到的显著水平Sig看,都是>
0.05的,因此,可能确定全组数据方差是相等的。
如果从四个指标得到的显著水平中,有>
0.05的,也有<
0.05的,那么就不能确定是否方差相等。
从箱图中,可以看出有没有奇异值:
如果存在奇异值,则会在箱图中用”0”标记,存在极值,则会用“*”标记。
Output:
上图中的斜线是正态分布的标准线,散点图是实际数据的取值,散点图组成的曲线越接近直线,表示数据分布越接近正态分布。
女同学和男同学的语文成绩分布的正态概率图所示,可以看出接近相当接近正态分布。
12.交叉列联表分析
在实际分析中,需要掌握多个变量在不同取值情况下的数据分布情况,从而进一步深入分析变量之间的相互影响和关系,这种分析就称为交叉列联表分析。
例如,我们需要了解不同专业学生的高考成绩是否有较大的不同,就需要两变量的交叉列联表分析,这两个变量分别称为交叉列联表分析的行变量和列变量。
如需进一步了解不同性别、不同专业的学生高考成绩是否有显著不同,就需要用三变量交叉列联表分析。
性别变量就是交叉列联表分析的层控制变量。
交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一事实上的相关性。
要获得变量之间的相关性,仅仅靠频数分布的数据是不够的,还需要借助一些变量相关程序的统计量和一些非参数检验的方法。
常用的衡量变量间的相关程序的统计量是简单相关系数,但在交叉列联表分析中,由于行列变量往往不是连接变量,不符合计算简单相关系数的前提条件。
因此需要根据变量的性质,选择其他的相关系数,如Kendall等级相关系数、Eta值等。
SPSS提供了多种适用于不同相关系数的相关关系,这些检验是零假设是:
行和列变量之间彼此独立,不存在显著的相关关系。
SPSS将自动给出检验的相伴概率,如果相伴概率<
显著性水平0.05,那么应拒绝零假设,认为行列变量之间彼此相关。
计算公式如下:
1)卡方统计量检验,是常用的检验行列变量之间是否相关的方法
2)Contingencycoefficient:
列联系数
3)PhiandCramer’sV:
ψ系数
用两个班级学生进行两个感冒疫苗的试验,两个班级学生患感冒结果如下表示,问两个班级学生的患病比例有无差别。
13.多选项分析
多选项分析是对多选项问题的分析方法。
所谓多选项问题,就是一个问题的答案是顺序变量或名义变量,并且允许选择的答案可以有多种组合。
在实际生活中,这种问题是很多的。
如考试中的多选题,一个题目下面有多个选项,要将准确的答案都选出来,可能有一个准确的选项,也可能有两个或多个准确的选项。
对于这类问题,不同的人会有不同的答案,造成答案的千差万别。
那么如何对这类问题进行统计分析呢?
对于多选项的问题,分解的方法有两种:
l多选项二分法
l多选项分类法
14.基本统计分析的报表制作
根据报表的侧重点不同,可以分成以下三种:
l个案简明统计报表
l行形式报表
l列形式报表
五、均值比较和T检验
在正态或近似正态分布的计量资料中,在使用前面的统计描述分析后,还要进行组与组之间平均水平的比较,这时就要使用T检验方法。
1.单一样本T检验
单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。
统计的前提是样本总体服从正态分布。
分析某班级学生的数学成绩和全国平均成绩70之间是否存在显著性差异。
Output:
One-SampleStatistics
N
Mean
Std.Deviation
Std.ErrorMean
数学
32
71.92
10.879
1.923
One-SampleTest
TestValue=70
t
df
Sig.(2-tailed)
MeanDifference
95%ConfidenceIntervaloftheDifference
Lower
Upper
.999
31
.325
1.922
-2.00
5.84
由输出结果可看出,32个学生的数学平均值为71.92,标准差为10.879,均值误差为1.923。
本例中检验值为70,样本均值和检验值差为1.922,T值为0.999,得到的相伴概率为5.84,95%的样本差值在区间(-2.00,5.84)。
假设显著性水平α为0.05,由于相伴概率0.325>
0.05,可以认为该32个学生的数学均值和全国的数学平均均值相比,没有出现显著变化。
2.两独立样本T检验
从清华和北大两所学校中分别随机抽取若干个大一学生,分析他们的大学入学考试平均成绩是否存在显著差异。
在具体的计算中需要通过两步来完成:
第一,利用F检验判断两总体的方差是否相同;
处级二,根据第一步的结果,决定T统计量和自由度计算公式,进而对T检验的结论作出判断。
由输出结果可以看出,两个学校各9名学生的数学平均值分别为76.89和69.00,标准差分别为16.564和23.537,均值标准误差分别为5.52和7.846。
本例中的F的相伴概率为0.461>
显著性水平0.05,由此可以认为两个学校学生的数学成绩方差无显著差异;
然后看方差相等时T检验结果,也就是T统计量的相伴概率为0.423>
显著性水平0.05,由此可以认为两个学校学生的数学成绩的平均值不存在显著差异。
3.两配对样本T检验
一般用于同一研究对象分别给予两种不同处理的效果比较,以及同一研究对象处理前后的效果比较。
前者推断两种效果有无差别,后者推断某种处理是否有效。
两配对样本T检验的前提要求如下:
l两个样本应是配对的。
在应用研究领域中,主要的配对资料包括:
具有年龄、性别、体重、病况等非处理因素相同或相似者。
首先,两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。
l样本来自的两个总体总体应服从正态分布。
研究一个班同学在参加了暑假数学和化学的培训班后,学习成绩是否有显著变化。
数据如表示:
从PairedSamplesStatistics结果表中可以看出,参加培训前后,数学化学生的平均成绩分别为73、85和82、89。
培训前后数学和化学成绩差值序列的平均值分别为-11.83和-7.611,计算出的T统计值分别为-2.15和-2.34,其相伴概率分别为0.046和0.032,比显著性水平0.05要小,由此可以认为培训前后数学和化学成绩都有了明显的变化,从两个样本的平均值可以看出,培训后的成绩比培训前的高。
六、方差分析
为了进行两组以上均数的比较,通常可以使用方差分析方法。
1.单因素方差分析
定义:
单因素方差分析测试某一个控制变量的不同水平是否给观察变量造成了显著差异和变动。
例如,培训是否给学生成绩造成了显著性影响;
不同地区的考生成绩斐然是否有显著的差异等。
单因素方差分析实质上采用了统计推断的方法,由于方差分析有一个比较严格的前提条件,即不同水平下,各总体均值服从方差相等的正态分布,因此方差分析问题就转换成研究不同水平下各个总体的均值是否有显著差异的问题。
研究一个班级的三组学生(分别接受了三种不同的教学方法)在数学成绩上是否有显著差异。
数据如下表示:
相伴概率0.044<
显著性水平0.05,由此可认为各个组的总体方差是不相等的,根据方差检验的前提条件要求,这组数据是不适合进行单因素方差分析的,出现这种情况,那么就需要对数据进行转换使得方差尽可能相同。
如果方差不齐,可以进行对数,倒数或函数的转换,选择适当的转换形式。
如果还不行就只能用非参数的单因素分析。
将数据进行标准化处理:
0.07>
0.05
2.多因素方差分析
研究一个班级三组不同性别的学生(分别接受了三种不同的教学方法)在数学成绩上是否有显著差异。
数据如下表:
0.879>
0.05,说明各个组总体方差是相等的,满足方差检验的前提条件。
从上图,不同教学方法贡献的离差平方和为3295.77,均方为1647.788;
不同性别贡献的离差平方和为351.157,均方为351.157。
可见不同教学方法的影响要比性别的影响大。
它们对应的F值和相伴概率分别为30.700,6.542和0.000,0.025。
这说明不同教学方法和性别对数学成绩造成了显著影响,但是性别造成的影响显示<
教学方法造成的影响。
上图是组别变量的均值比较结果,以第三组的值为参考。
第一组和第三组的相伴概率为0.003<
0.05,因此第一组和第三组均值差异显著;
第二组和第三组的相伴概率为0.002<
0.05,因此第二组和第三组均值差异显著;
上图是性别变量的均值比较结果,可以看出不同性别之间的相伴概率为0.025<
0.05,因此不同性别之间有显著的均值差异。
从上图可以看出,组别变量的三个水平之间的相伴概率都<
0.05说明三个组之间都存在显著差别。
表格中也用*号标出了显著性差别。
从上图中可以看出,控制变量间是否有交互影响:
两条直线还是很大不同的,因此存在一定的交互作用影响。
3.协议差分析
无论是单因素方差分析还是多因素方差分析,它们都有一些人为可以控制的控制变量,在实际问题中,有些随机思想束缚是很难人为控制的,但它们又会对结果产生显著的影响,为了更加准确地研究控制变量不同水平对结果的影响,应该昼排除其他因素对分析结果的影响。
协方差将那些很难控制的随机变量作为协变量,在分析中将其大扫除,然后再分析控制变量对观察变量的影响,从而实现对控制变量效果的准确评价。
协方差分析仍然采用F检验,如果F控制变量的相伴概率<
=0.05则控制变量的不同水平对观察变量产生显著影响;
如果F协变量的相伴概率<
=0.05,则协变量的不同水平对观察变量产生显著影响。
研究一个班三组学生(分别接受三种不同的教学方法)在数学成绩上是否有显著差异。
另外还知道这些学生的数学入学成绩。
数据如下表所示:
从上图可看出:
控制变量对观察变量的独立作用部分:
不同教学方法(组别)的F值为15.146,是相伴概率为0.000<
0.05,说明不同教学方法对数学成绩造成了显著影响。
协变量部分:
F值为0.08,相伴概率为0.782>
0.05,说明入学成绩没有对观察结果造成显著的影响。
七、相关分析
描述变量之间线性相关程度的强弱,并用适用的统计指标表示出来的过程为相关分析。
一个变量的值不能由另一个变量的值唯一确定,这种关系称为统计关系。
相关分析的方法很多,比较直接和常用的一种是绘制散点图。
但图形虽然能够直接展现变量之间的相关关系,但不是很精确,为了能够更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。
相关系数是衡量变量之间相关程序的一个量值。
如果相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;
如果根据样本数据计算面来的,则称为样本相关系数,记为γ。
在统计学中,一般用样本相关系数γ来推断总体相关系数。
相关系数的取值范围在-1和+1之间,即-1≤γ≤+1
l0<
γ≤+1,表明变量之间存在正相关关系,即两个变量的相随变动方向相同;
l-1≤γ<
0,表明变量之间存在负相关关系,即两个变量的相随变动方向相反;
l|γ|=1时,其中一个变量的取值完全取决于另一个变量,二者即为函数关系;
lγ=+1时,表明变量之间完全正相关;
lγ=-1时,表明变量之间完全负相关;
lγ=0时,说明变量之间不存在线性相关关系,但这并不排除变量之间存在其他非线性关系的可能。
在说明变量之间线性相关程度时,根据经验可将相关程度分为以下四种情况:
l当|γ|≥0.8时,视为高度相关;
l0.5≤|γ|<
0.8时,视为中度相关;
l0.3≤|γ|<
0.5时,视为低度相关;
l|γ|<
0.3时,说明变量之间的相关程度极弱,可视为不相关。
在一般情况