SPSS学习.docx - 冰点文库

资源描述

SPSS学习.docx

《SPSS学习.docx》由会员分享，可在线阅读，更多相关《SPSS学习.docx（19页珍藏版）》请在冰点文库上搜索。

SPSS学习.docx

SPSS学习

SPSS（社会科学统计软件）学习资料

周次日期课程内容

03．05

课程安排，SPSS

浏览

03．12

SPSS数据编辑和定义

03．19

数据变换

03．26

描述性统计

04．02

列联表

04．09

相关分析

04．16

样本的差异性考验

（1）

04．23

样本的差异性考验

（2）

04．30

研究应用举例

05．07

期中测验

05．14

综合应用举例

（1）：

文件合并，制表，图

05．21

方差分析

（1）

05．28

方差分析

（2）

06．04

多元线性回归

（1）

06．11

多元线性回归

（2）；判别分析

06．18

因素分析

（1）

06．25

因素分析

（2）；聚类分析

07．02

综合应用举例

（2）

参考书：

SPSSforWindows：

BaseSystemUser’sGuide.MarijaJ.Norusis.SPSSInc.

卢纹岱等编着：

SPSSforWindows从入门到精通。

电子工业出版社，1996年.

SPSSforWindowsmadeSimple.3rded.PaulR.Kinnear&ColinD.Gray

PsychologicalPress,Ltd.,1999

作业：

必须在次周周一前用电子邮件，磁盘或打印形式交给主讲教师和辅导上机的助教。

讲义：

课前在网上下载或接收电子邮件。

成绩评定方法：

期末考试,期中考试,和作业，出勤。

期末考试

40%

期中考试

30%

作业，出勤

30%

总成绩

100

SPSS软件简介

SPSS是StatisticsPackageforSocialSciences（社会科学统计软件包）的缩写，是社会科学研究人员首选的统计软件，也是目前世界上最流行的统计软件（SPSS、SAS）之一。

自1985年以来，SPSS公司推出了一系列不同版本的SPSS软件。

我们这里主要简介SPSS10.0版本。

第一章数据和文件

1准备分析用数据

1.1数据收集

主要是通过测量方法收集必需的数据。

测量方法可以是实验、测验、问卷调查等等。

应尽可能包括自己所需要的所有变量，因为从分析中排除不必要的变量比收集附加变量要容易得多。

1.2数据编码

当我们通过问卷或测验收集了很多的数据回来后，接下来的工作就是把这些数据录入到计算机里。

为了输入数据简单，一种方法是在录入前用数据或符号表述被试的回答，这就是数据编码。

下面是一个编码表：

变量名

代号

位数

位置

备注

编号

Num

1—3

学校

Sch

1-南武2-晓园3-97中

性别

Sex

1-男子2-女

设置一个能唯一标记Case的变量是很有用的，它可以帮助人们很容易找到某些特殊信息的Case。

（编码示例）

不管你自己对SPSS使用多么熟悉，在数据录入前对数据进行系统的编码是非常必要的，它可以使你避免混乱，清楚了解数据的意义。

1.3数据文件

SPSS有三种文件：

SYNTAX文件（文本文件，以.sps为后缀）、DATA文件（数据文件，以.sav为后缀）、OUTPUT文件（结果文件，以.spo为后缀）。

SYNTAX文件主要是保存命令及相关的文本资料；DATA文件则是保存供SPSS统计的数据，只有这种文件里的数据才可以直接进行统计使用；OUTPUT文件保存统计的结果。

SPSS所用的数据文件有很多种，主要是根据自己分析数据的量及每一Case包括变量多少来选择适当的文件形式。

当数据较少及Case不多时，可以直接在SPSS的数据文件里加入数据。

（录入数据示例）

当数据较多时，一般习惯用一编辑系统来录入数据（如SPSS中的SYNTAX文件），然后再通过定义命令把数据读入统计用的数据文件里。

这样录入的速度较快，不过可能不容易查找在录入过程中的错误。

这里只介绍用SPSS中的SYNTAX文件录入数据的方法，并且在以下的其它内容中，也相应只介绍一些习惯的方法。

（录入数据示例）

2数据定义与转换

2.1数据定义（DATALIST）

在用SPSS中的SYNTAX文件录入的数据文件中，每一个人的资料都排在一行上（可以多行）。

这样任何一个变量的数据都在相同的列里。

SPSS在使用这些数据时，必须对这些数据进行定义。

即告诉计算机各列数据代表什么。

DATALIST命令用以给变量命名，并定义它们在Case中的位置和属性，把数据变成能被SPSS命令或过程使用的现用文件。

下面只介绍用固定格式引用外部数据文件的命令：

DATALISTFILE=‘C：

\YLX\STRESS.SPS’/num1-3sch4sex5chi6-7

a1toa108-17.

FILE子命令指定从外部文件C：

\YLX\STRESS.SPS读入数据。

接着是各个变量的名称及所在位置（字符宽）。

（1）当数据里有小数应该怎么表示？

如，语文成绩里有85.3分，小数点不用录入，我们只要在程式里告诉电脑哪位是小数就可以了。

如：

DATALISTFILE=‘C：

\YLX\STRESS.SPS’/num1-3sch4sex5chi6-8

（1）

a1toa109-18....

chi6-8

（1）中括号里的1表示有一位小数。

如果是两位小数就用

（2）。

（2）当你的数据中每个被试的数据有两行或者多行时应该怎么办？

下面的例子是一个case有三行数据的情况：

datalistfile='d:

\data\2002\study.sps'records=3/1school1numb2-3sex4grade5chinese6-7math8-9english10-11s1tos6012-71

/2s61tos901-30b1tob4431-74

/3a1toa411-41d1tod4242-83.

用records=3指明每个被试有三行数据，在定义的时候，用/1/2/3指明是第几行的数据。

（结合学生前面录入的数据示例）

2.2变量值的重编码（RECODE）

在统计数据处理时，经常需要对数据进行某些变换以适应不同处理的要求。

所谓数据变换是利用现存变量，或改变它们的值，或利用它们产生新的变量。

RECODE可以对现存变量的值作指定的变换。

如我们有一个题目是:

“我不能满足学生的期待。

”要求老师在下面五个选择中选一个“1从来没有、2很少、3有时、4经常、5总是”。

我们在录入数据时只是按老师选择的数字录入。

但现在我们想统计“有时+经常+总是”和“从来没有+很少”的人数及比例。

这时我们可以用RECODE命令进行变换。

RECODEITEM1（1,2=1）（3,4,5=2）.

这样我们就用1代表“从来没有+很少”，用2代表“有时+经常+总是”。

另，如年龄这一变量，我们可能在录入时是按实际年龄的数字录入，但如果我们想把它们分老、中、青三组以比较三种年龄的人的差异时，就可以用RECODE命令对原数据中的年龄变量进行变换。

RECODEAGE（LOTHRU35=1）（36THRU45=2）（46THRUHI=3）.

把最小到35岁为青年组，用1表示；36到45岁为中年组，用2表示；46到最老为老年组，用3表示；这样就对原来变量的值重新进行了编码。

这里大家应该记住：

THRU表示“至”。

第一个命令里是确定的值“（1，2=1）”，而第二个命令是一个范围“（LOWESTTHRU35=1）”。

（结合学生前面录入的数据示例）

2.3计算变量（COMPUTE）

有时我们想对数据进行组合，形成一个新的变量。

如我们用10道题来测量学生对学校的态度，但我们并不想对这10道题进行一一的分析，我们想对它们进行合并来说明该学生对学校的态度情况。

这时我们可以用COMPUTE命令来组合成新的变量。

COMPUTEATTITUDE=（ITEM1+ITEM2+ITEM3+ITEM4+...+ITEM10）/10.

把十个项目的分析的相加的平均分成一个新的变量ATTITUDE。

也可以是其它的运算关系，如减、乘、除、平方、开方等。

当然你可以不除以10，这样得到的是10道题的总分，除以10是项目平均分。

但有时因为可能有几个维度，而这几个维度的项目数不一样多，我们又想比较各维度的水平，这时我们除以项目数，得到项目平均分以利于比较。

又如你用学生的语文、数学、英语三科的总成绩作为学生的学业成绩。

computetotal=chinese+math+english.

除以3就可以得到平均每科的成绩。

写成：

computetotal=（chinese+math+english）/3.

（结合学生前面录入的数据示例）

2.4条件变换（IF）

IF命令根据逻辑条件执行类似于recode的变换。

如当我们想把男生且考试分数不合格的作一组，男生且考试分数合格至良好的作一组，男生且考试分数优秀的作一组，以比较三组学生在某一方面的差异时，我们可以用IF命令来形成一个新的变量。

IF（SEX=1ANDSCORE<=60）SEXSC=1.

IF（SEX=1ANDSCORE>60ANDSCORE<=80）SEXSC=2.

IF（SEX=1ANDSCORE>80）SEXSC=3.

这样我们就变换成一个新的变量SEXSC，进而比较SEXSC在某一方面的差异，即上述三组学生的差异。

（结合学生前面录入的数据示例）

当然，我们可以IF命令来获得很多种我们想要的变换。

注意和RECODE的差异。

其实RECODEAGE（LOTHRU35=1）（36THRU45=2）（46THRUHI=3）.也可以用IF来实现：

IF（AGE<=35）AGE1=1.

IF（AGE>35ANDAGE<=45）AGE1=2.

IF（AGE>45）AGE1=3.

不过，这样就会产生了一个新的变量“AGE1”，当然原来的变量“AGE”也保持不变。

（结合学生前面录入的数据示例）

2.5缺失数据的定义（MISSING）

我们在做调查时，经常遇到一些被试对某一问题漏答的情况。

但由于该被试的其他资料还是可以用的，不想把他剔除。

在编码时，我们用一个答案上没有的数字表示缺失。

一般习惯是用“0”、“9”或“00”、“99”等，但注意这些数字必须是答案中没有的，否则重复了会把原来具有其它意义的变成了缺失。

在用SPSS进行统计，我们就必须告诉计算机，某一变量如果数值是“0”、“9”或“00”、“99”时，就表示缺失。

如某些学生忘记填写性别，我们用9来表示缺失。

MISSINGVALUESEX（9）.

告诉计算机，当SEX是9时，表明该学生没有填写性别。

在做涉及到该变量的某些计算时，如比较男女学生的差异，可以考虑剔除丢失该变量资料的人。

第二章描述统计过程

1频数

这是对数据的一般整理，了解样本的分布：

离散性、变异性和规律性。

统计学中的分布是指一个变量的各种情况或取值出现的次数或频数，所以又叫做频数分布。

如家长的职业，我们可以用变量名“JOB”，不同的职业我们给予不同的数字表示：

1-干部、2-教师、3-研究员等，分布是指被调查的学生中各种职业的家长数。

频数分布反映出落入每一组的观察值个数。

还可以用分数、小数或百分数表示。

1.1命令FREQUENCES

FREQUENCES计算单个变量值的频数、百分数和各种描述统计量。

如上述，我们要计算各种职业的父母的人数。

FREQUENCESVARIABLES=JOB.（可以简写成：

FREVAR=JOB.）

1.2输出结果的解释

Statistics

JOB

Valid

192

Missing

JOB

Frequency

Percent

ValidPercent

CumulativePercent

Valid

23.4

24.0

43.1

44.3

68.2

31.0

31.8

100.0

Total

192

97.5

100.0

Missing

System

2.5

Total

197

100.0

1.3分位点的确定—子命令PERCENTILES和NTILE

利用子命令PERCENTILES和NTILE得到所有待分析变量的百分位数。

如果指定多个PERCENTILES和NTILE子命令，显示所有选择的百分位数的一个表。

1.3.1PERCENTILES子命令

PERCENTILES子命令显示落在指定值（或者值列表）的case的百分数。

如命令：

FREQUENCESVARIABLES=SCORE/PERCENTILES=10255075.

计算变量SCORE在百分位点10，25，50，75的值。

1.3.2N分位点—NTILE子命令

NTILE计算百分数，它把一个分布划分成指定类数。

并显示一个值，case的请求百分数落在那个值下。

如：

FREQVAR=math/NTILE=4.

确定math的四分位点值。

2平均数、标准差、最大/最小值

某一变量得分的平均数、标准差及最大/最小值，可以说明数据的一般情况：

均数、离散程度等信息。

计算这些数据的命令是DESCRIPTIVES或MEANS。

2.1命令DESCRIPTVES

DESCRPTIVES可以计算单个数值变量的描述性统计量，包括平均数、标准差、最大/最小值等。

如我们想了解学生语文考试的平均分与标准差，就可以用DESCRIPTIVES命令来计算。

DESCRPTIVESVARIABLES=CHINESE.（可以简写成：

DESVAR=CHINESE.）

输出结果的解释：

DescriptiveStatistics

Minimum

Maximum

Mean

Std.Deviation

CHINESE

534

77.41

8.48

ValidN（listwise）

534

如果我们想还同时知道数学、英语等科的平均数分与标准差，可以把该命令写成：

DESCRIPITVESVARIABLES=CHINESEMATHENGLISH.

计算机就会同时告诉我们这三门学科学生的平均等分、标准差、最大/最小值、有效Case数等。

输出结果的解释：

DescriptiveStatistics

Minimum

Maximum

Mean

Std.Deviation

CHINESE

534

77.41

8.48

MATH

534

82.15

14.47

ENGLISH

534

76.14

13.52

ValidN（listwise）

534

2.2命令MEANS

MEAANS与DESCRIPITVES不同，MEANS是计算由一个或多个独立变量定义的分组内，因变量的平均数、标准差和组数。

如我们要了解男女学生的语文、数学和英语的平均数、标准差等，就可以用MEANS计算。

MEANSTABLES=CHINESEMATHENGLISHBYSEX.

执行这一命令，会给出男女学生的语文、数学和英语的平均分、标准差等。

MEANS命令还可以计算更多的变量的分组。

如不同性别、不同年级学生的语文成绩平均数与标准差等。

命令可写成：

MEANSTABLES=CHINESEBYSEXBYGRADE.

输出结果的解释：

CaseProcessingSummary

Cases

Included

Excluded

Total

Percent

CHINESE*SEX*GRADE

534

98.0%

2.0%

545

100.0%

Report

CHINESE

GRADE

SEX

Mean

Std.Deviation

83.59

5.73

85.30

4.45

Total

84.62

104

5.04

77.32

8.07

80.37

7.04

Total

79.08

118

7.61

76.31

8.37

79.76

5.79

Total

78.34

116

7.15

71.35

5.15

73.96

5.99

Total

72.68

100

5.72

68.50

10.14

73.75

7.85

Total

71.34

9.30

Total

75.28

232

9.15

79.04

302

7.54

Total

77.41

534

8.48

第三章相关分析和回归分析

1相关

1.1相关分析的意义

我们常用相关系数来表示两变量的关系程度。

当然我们在计算相关，应该考虑这两个变量之间的关系是否线性。

如果不是线性的关系，而使用相关系数来表示两变量间的关系的话，就会错误估计它们的关系。

如生活压力与心理健康之间的关系，很多研究结果都表明，它们之间关系应该是一倒U型的曲线，也就是非线性的关系。

因此，我们就不能用相关系数来表示它们之间关系的量。

但很多变量之间关系是线性的，如学习的努力程度与学习成绩的关系，我们可以用相关系数来说明它们之间关系的程度。

当然，计算相关有很多种公式，对公式的选择与变量的性质有关：

是连续变量还是二分变量或是等级变量等等。

一般没有注明的时候是用皮尔逊积差相关。

1.2命令CORRELATION

如我们要计算学生的语文成绩（CHINESE）与英语成绩（ENGLISH）之间的关系，可以用以下命令：

CORRELATIONVARIABLES=CHINESEWITHENGLISH.

输出结果的解释：

Correlations

ENGLISH

CHINESE

PearsonCorrelation

.502

Sig.（2-tailed）

.000

534

这一命令还可以同时计算多个变量与多个变量两两之间的相关。

如语文成绩、数学成绩、英语成绩之间的两两相关，可以用如下命令：

CORRELATIONVARIABLES=CHINESEMATHENGLISHWITHCHINESEMATHENGLISH.

或：

CORRELATIONVARIABLES=CHINESEMATHENGLISH.

输出结果的解释：

Correlations

CHINESE

MATH

ENGLISH

CHINESE

PearsonCorrelation

1.000

.515

.502

Sig.（2-tailed）

.000

534

MATH

PearsonCorrelation

.515

1.000

.566

Sig.（2-tailed）

.000

534

ENGLISH

PearsonCorrelation

.502

.566

1.000

Sig.（2-tailed）

.000

534

**Correlationissignificantatthe0.01level（2-tailed）.

结果除给出两两相关系数（相关矩阵）外，还显示出双尾显着性检测的结果。

SPSS可以指定所用的相关公式，如果没有指定，一般默认为皮尔逊积差相关。

用什么公式，应该要根据数据来决定。

2回归分析

回归分析的目的是建立两列或多列变量之间的数量关系模型（即回归方程）。

也就是确定了自变量与因变量的关系模型，利用这个数学模型，我们可以从一个变量或多个变量来预测或估计另一个变量的变化。

例如，我们知道学习基础（X）对成绩（Y）有密切关系，我们想建立一个回归方程，根据学生原来的学习水平高低来估计其未来成绩：

Y=a+bX。

这里所提到的是指线性关系的，而对于非线性关系的回归，则是另一回事。

2.2命令REGRESSION

REGRESSION是计算多元回归的命令。

提供五种建立回归方程的方法：

向前选择（Rorward）、向后剔除（Backward）、逐步选择（Stepwise）、强制进入（Enter）和强制剔除（Remove）。

假如我们用逐步选择方法进行回归分析，命令格式如下：

REGRESSIONVARIABLES={varlist}/dependent=varlist/method=stepwise.

或：

REGRESSION

/DEPENDENTvarlist

/METHOD=STEPWISEvarlist.

DEPENDENT里的变量名必须在前面的变量名里。

一般如果不指定方法，即为默认的逐步选择方法。

2．3输出结果的解释

第四章差异检验

1两组平均数的差异检验

1．1平均数的差异检验的意义

当我们想检验两样本之间是否存在差异，可以使用平均数的差异检验。

例如比较男女学生在数学学习上是否存在差异。

一般我们可以用T检验来证明两组是否差异显着。

1．2命令T-TEST

T-TEST用以检验独立样本或配对样本的平均数差异显着性。

当两列变量的样本不一样时，统计是不同的。

1．3独立样本

例如：

比较男女学生在学习上（包括数学、语文、英语成绩）是否存在差异。

T-TESTGROUPS=SEX（1,2）/VARIABLES=MATHCHINESEENGLISH.

结果会告诉我们男女学生在数学、语文、英语三门学科的平均数、标准差、T值、显着水平。

1．4相关样本：

例如：

为了比较单眼与双眼对深度知觉的影响，50名学生分别用单眼与双眼进行了实验，等到单眼观察的一列数（A）双眼观察的一列数（B）.我们比较这两列数的差异是否显着，以了解单、双眼对深度知觉的差异。

T-TESTPAIRS=AWITHB.

结果会给出两列数的平均数、标准差、T值、显着水平等。

1．5输出结果的解释

2单因素方差分析

2．1单因素方差分析的意义

但大多数时，我们要比较不止两组平均数的差异，而可能是两个以上的样本平均数。

这种多个样本平均数差异的检验需要通过方差分析进行。

在这种意义上，可以把方差分析看作T检验扩展。

有很多也用T检验来两两样本进行差异检验，但这是不对的。

2．2命令ONEWAY

展开阅读全文