SPSS数据预处理操作.docx

资源描述

SPSS数据预处理操作.docx

《SPSS数据预处理操作.docx》由会员分享，可在线阅读，更多相关《SPSS数据预处理操作.docx（34页珍藏版）》请在冰点文库上搜索。

SPSS数据预处理操作.docx

SPSS数据预处理操作

第一讲：

SPSS数据预处理操作

教学目的：

能应用SPSS软件进行：

数据文件的建立、数据录入与修改、变量计算及转换

教学内容：

1）SPSS概述

2）SPSS数据文件的建立

3）SPSS数据整理与转换

教学重点：

SPSS数据文件的建立

教学难点：

SPSS数据转换

教学时间：

1学时

SPSS概述

1.1SPSS简介

SPSS是英文StatisticalPackagefortheSocialScience（社会科学统计软件包）的缩写。

SPSS名为社会科学统计软件包，这是为了强调其在社会科学应用的一面（因为社会科学研究中的许多现象都是随机的，要使用统计学来进行研究），而实际上广泛应用于经济学、社会学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域。

SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。

SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类，每类中又分好几个统计过程，比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程，而且每个过程中又允许用户选择不同的方法及参数。

SPSS也有专门的绘图系统，可以根据数据绘制各种图形。

1.2SPSS的运行环境

硬件环境：

能运行Windows95/NT/2000或以上版本的微机。

软件环境：

SPSS能在中英文Windows9X、WindowsNT4.0、Windows2000及更高版本的Windows操作系统上运行。

1.3SPSS的进入和退出

进入Windows后，逐一选取开始程序SPSSforWindows—SPSS11.0forWindows，单击SPSS11.0forWindows后，即可进入SPSS。

首先是一个对话框如图1.1，显示最近打开的数据文件、结果文件和程序命令文件。

可选取你要打开的文件，按OK按钮打开。

如不喜欢这个对话框，可选取对话框下方的Don’tshowthisdialoginthefuture选项则以后不会再显示。

要退出SPSS，在任一SPSS窗口下逐一选取File——Exit，或在SPSSDataEditor窗口单击右上角关闭按钮。

若生成了新文件或对以前文件进行了修改，退出前会提醒你对其进行保存。

1.4SPSS窗口及其功能

SPSS有数据编辑窗口SPSSDataEditor、结果窗口SPSSViewer和语句窗口Syntax。

这里只介绍数据编辑窗口和结果窗口。

1.4.1数据编辑窗口

启动SPSS后，首先进入数据编辑窗口SPSSDataEditor，如图1.2的DataView窗口，可在此窗口下录入数据、修改数据等。

图1.2DataView窗口

点击下方VariableView按钮可进入变量定义窗口，如图1.3。

在此窗口下可定义、修改变量或察看变量的设置情况。

在下图中可看到变量的名字（Name）、宽度（Width）、类型（Type）、小数位数（Decimals）、标签（Label）等。

SPSS的几个窗口菜单大致相同其中的命令也基本相同。

菜单下的工具按钮均为常用的命令。

将鼠标移至按钮附近，则弹出该按钮的解释，以后就不再说明。

下面将简介，各命令的具体作用请参考实验指导教材。

●File菜单中常用的命令为New（创建新文件）、Open（打开已有文件）、Save（保存）、SaveAs（另存为）、Close（关闭窗口，SPSSDataEditor窗口下无此命令，该窗口关闭则退出SPSS）、RecentlyusedData（最近打开的数据）、RecentlyusedFiles（最近打开的文件）、Exit（退出）等。

图1.3VariableView窗口

●Edit菜单下的常用命令有Undo（撤销上次操作）、Redo（重复上次操作）、Cut（剪切）、Copy（复制）、Paste（粘贴）、Clear（清除）、Find（查找）、Options（选项）、Options（可对SPSS的一些设置进行调整）等。

●View菜单中的命令可对窗口的设置进行调整,有StatusBar，ToolBars，Fonts，Gridlines，ValueLabels。

●Data菜单中是数据进行编辑整理的命令，包括DefineDates，InsertVariable，InsertCase，GotoCase，SortCases，Transpose，MergeFiles，Aggregate等

●Transform中命令有：

Compute；RandomNumberSeed；Count；Recode；CategorizeVariable；等

●Utilities菜单中命令有：

Variables；FileInfo；DefineSets；UseSets；RunScript；MenuEditor；Analyze；Graph等

菜单下的工具按钮均为常用的命令。

将鼠标移至按钮附近，则弹出该按钮的解释，在此不再一一说明。

1.4.2结果窗口

该窗口中显示SPSS处理的输出信息。

如处理成功，则显示处理结果；如处理失败，则显示错误信息。

结果窗口可分为左右两个窗口。

左窗口为大纲窗口，其内容即结果的目录；右窗口为内容窗口，显示具体结果。

如点击大纲窗口的项目，则内容窗口会显示相应内容，与资源管理器操作类似，如图1.4。

SPSS结果一般由以下几个部分组成：

题头（Heading，即处理的名称）、标题（Title）、记录（Notes，包括数据文件名、缺失值处理、操作所用时间等，默认选项为隐藏，只有双击大纲窗口中该项目才显示出来）、结果具体内容（文本、图形等）。

单击题头（对准题头左边黄色的盒状图标），则可选中上述的整个处理的结果；双击题头时，可使整个结果折叠或打开。

单击题头前的“+”或“—”符号，也可达到同样效果。

双击大纲窗口中某个项目，则可使相应内容隐藏或显示，同时大纲窗口中该项目名称前图标由一本打开的书变为合上的书或相反。

如要改变结果中表格或图形的位置，可在大纲窗口或结果窗口单击该项目，将它拖到指定位置即可。

在此窗口中还可对结果进行编辑如选择删除复制等。

该窗口菜单同数据编辑窗口类似，新增加项目如图所示：

File；Edit；View等

SPSS数据文件的建立

如上一章所述，建立SPSS数据文件有两种方法：

一是在SPSS中直接输入，二是从其他数据文件转入。

重点介绍第一种方法，它类似于在FOXPRO建立数据库。

首先，在SPSSVariableView窗口中建立数据文件结构，如定义变量类型、宽度、标签等；然后在SPSSDataView窗口输入数据，并保存为“.sav”格式的SPSS数据文件。

通常情况下，调查问卷的数据文件建立与录入都是采用第一种方法。

在问卷数据录入前，还必须对问卷选项进行编码。

2.1问卷设计及数据编码

2.1.1问卷

一份调查问卷的结果通常表现为文字型和数字型两大类，其中文字型包括二项选择问题、多项选择问题、排序问题、开放式问题、连线问题等调查结果，而数字型包括百分比、绝对数等。

对于数字型，可直接录入数据；而文字型则需要进行事前或事后编码，且不同类型的调查结果有不同的编码表现。

此外，无论是数字型还是文字型，都有可能碰到调查数据缺省或不应该有的情况。

这同样需要事先编码。

下面将以为了解大学生购书情况进行调查而获得的一份问卷为例，介绍几种常见问卷数据编码。

2.1.2数据编码

1、单项选择题的编码

由于单项选择题的答案是唯一的，所以对各答案依次编码为1、2、3….。

如问卷中的第1题有四个答案，可依次编码“1”代表答案“300元以下”，“2”代表答案“300—500元”，“3”代表答案“500—700元”，“4”代表答案“700元以上”。

于是，被访问者选择的任何答案都可以用1，或2，或3，或4来表示。

2、多项选择题的编码

问卷中的第5题是多项选择题，共有6个答案项。

编码时，可将6个答案看作6个变量，用“1”表示选择了该项答案，用“0”表示没有选择该项答案。

若第5题答案顺序是从左到右、一行一行的排列，则012号问卷结果的编码是“001110”。

此外，该题的第6个答案项没有唯一的表现，应该视为开放性问题的编码（详细解释见后面）。

3、排序题的编码

对于排序题的编码，其处理方法是：

将每个序位当作一个变量，而需要排序的那些选项作为每个变量的取值。

如问卷中第3题有六个选项要排序，将“购书时考虑的第一因素”作为第一个变量，记为“Q301”；其取值可为“内容”、“价格”、“包装”“实用性”、“知名作家的作品”、“热门畅销书”中的任何一个，可分别编码为“1”、“2”、“3”、“4”、“5”、“6”。

同理，可将“购书时考虑的第二因素”、“购书时考虑的第三因素”等依次作为第二、第三变量等，记为“Q302”、“Q303”等；而每个变量的取值都与Q301相同，同样也编码为1、2、3、4、5、6。

于是，012问卷第3题排序结果可转化为6个变量的取值依次为：

2，4，1，5，6，3。

4、开放式问题的编码

对于开放式问题，如第5题的“其他”选项，第7、8、9题，有的答案是数字型，可直接录入，但有的答案则需要归类编码。

其中第5题的“其他”选项和第7题的第一个空，由于事先不知道有多少类答案，需事后抽查部分调查问卷结果统计后才能初步确定与编码。

这就是“事后编码”，它类似于二项选择问题的编码。

至于第9题的“性别”、“专业”、“年级”等问题的所有可能答案，在事先都容易确定，可以直接编码录入数据。

这就是“事前编码”，如“性别”有两个选项——男或女，可用“1”表示“男”，“0”表示“女”，也类似于二项选择问题的编码。

问卷编号：

012

1.您的月收入大概有多少？

■300元以下□300—500元

□500—700元□700元以上

2.您购书的主要目的是：

■学习、考试需要□了解时尚、热点

□休闲娱乐□个人爱好及收藏

3.您购书时主要考虑的因素依次是:

（请在选项前横线上标出序号）

3内容1价格

6包装2实用性

4知名作家的作品5热门畅销书

4.您较能接受的书的价格为：

■20元以下□20—50元

□50元以上□需要，则无所谓

5.您购书的地点一般是：

（可多选）

□新华书店□校内书店

■学校附近书摊■菜园坝书刊市场

■商家在校园内的图书展销□其他跳蚤市场

6.您对商家来校园内进行图书展销的看法是：

□既方便又实惠，很好

■无所谓，视其内容、价格而定

□没兴趣，宁愿到正规书店购买

7.您最近一次购书的时间是两个月前；花费为5.60元；

8.您平均每个月的购书支出占月收入的比例为2%；

9.您的性别女，专业经济学，年级大二，电话62650029。

5、缺失值的编码

问卷中，若遇到被调查者不回答的一些选项，则应该当作缺失值。

缺失值又称为用户缺失值（UserMissingValue）。

如第8题“您平均每个月的购书支出占月收入的比例”有缺失值，可编码为99%。

又如，第7题“花费”有缺失值，可编码为9999.99。

如果可以选择的项目有9项，但被调查者正好选择了第9个选项，则以“0”表示缺失值。

当然，缺失值也可用研究者自己能够识别的其他数字来表示，如“0”或“9”为用户缺失值。

用户缺失值与系统缺失值（SystemMissing）的含义不同。

系统缺失值主要是指计算机默认的缺失方式，如果在输入数据时空缺了某些数据或输入了非法的字符，计算机就把其界定为缺失值，这时的数据标记为“·”，而用户界定的缺失值则不会在数据显示时出现“·”。

6、“不适用情况”的编码

当碰到被调查者不适用的选项时，被调查者不需要对这些题进行回答，这种情况下，研究者可以用“8”、“98”等值来赋值表示“不适用”。

若答案正好是8，可以以0替补。

2.2在SPSS数据窗口直接输入数据

进入SPSS系统时，系统就已经生成了一个空数据文件，即空白的数据管理界面（见图1.2）。

在输入数据之前，必须先在VariableView窗口下定义变量。

通常的做法是：

把问卷中的问题定义成变量，把答案项编码定义成取值，并定义变量的类型、数据项宽度、标签、缺失值（或叫缺省值）等。

然后，在DataView窗口下输入数据，并存盘为“*.sav”文件就行了。

2.2.1定义变量

在VariableView窗口下，从列顶端可看到10种功能选项，分别是：

Name，Type，Width，Decimals，Label，Values，Missing，Columns，Align和Measure等变量属性。

见图2.1。

●Name，即变量名。

SPSS变量命名原则如下：

1）SPSS变量的变量名由不多于8个字符组成；

2）首字符是字母，其后可为字母或数字，或除“？

”，“！

”和“*”以外的字符。

但应该注意不能以下划线“＿”和圆点“·”作为变量名的最后一个字符；

3）变量名不能与SPSS保留字相同。

SPSS的保留字有all，and，by，eq，ge，gt，le，lt，ne，not，or，to，with，crosstabls，thru等。

4）SPSS中虽不区别大小写字符，但程序中的命令和关键词要用大写字母，表示系统内定；变量名等宜用小写字母，表示可人为指定。

5）可以用中文做变量名，但最好不用，因为涉及一个兼容性问题。

图2.1定义变量

●Type：

变量类型。

有8种变量类型可供选择，包括Numeric（数值型变量），Comma（带逗号的数值型变量），Dot（带圆点的数值型变量），Scientificnotation（科学计数法），Date（日期型变量），Dollar（货币型变量），Customcurrency（自定义型变量），String（字符型变量）等。

其中，常用的有三种Numeric，String和Date；系统默认的变量类型为标准数值型变量（Numeric）。

实践中，应尽量采用数值型变量，以方便以后的统计分析。

Width：

变量的长度。

系统默认长度为8。

Decimals：

小数位数。

若为数值型变量，必须指定小数位数。

系统默认小数位数为2。

Label：

变量标签，是对变量的进一步说明。

变量较多时，需采用变量标签对变量的含义加以解释，以免混淆。

在数据统计分析过程中，会在变量名相对应的位置上显示该变量的标签，有利于分析结果得出结论。

Values：

标签变量值。

标签是对变量的可能的取值所附加的进一步说明。

无论是问卷结果显示是数字型还是文字型，只要答案是分类的（也称分类变量），如问卷中第9题“性别”，编码后都要定义其取值的标签。

具体操作：

单击行中Values格，再单击格中的按钮，即可定义值标签，如图2.2。

图2.2值标签的定义

Missing：

缺失值的定义。

可指定缺失值。

Columns：

列宽度。

Align：

对齐方式，分为左对齐、右对齐、中间对齐。

Measure：

变量的度量类型。

Scale为定量变量，Ordinal为等级变量，Nominal为定性变量。

以问卷中第1题为例，可定义变量名称Name为“Q1”，数值型变量Numeric，宽度Width默认为8，小数位数Decimals为0，变量标签Label为“被调查者的月收入”，标签值Values为“1=300元以下”，“2=300—500元”，“3=500—700元”，“4=700元以上”，其他则均选择系统默认。

此外，定义问卷中的变量时，必须定义问卷编号变量，便于差错和统计分析。

也就是，录入问卷调查结果之前，应先录入问卷编号，如上节问卷编号为“12”。

如果有许多个变量的类型相同，可以先定义一个变量，然后把该变量的定义信息复制给新变量。

具体操作为：

先定义一个变量，在该变量的行号上单击右钮，弹出如图2.3（A）所示的快捷菜单，选择Copy；然后用鼠标右钮选择多行，弹出如图2.3（B）所示的快捷菜单，选择Paste；再把自动产生的新变量名称（如Var0001、Var0002、Var0003、⋯⋯）改为所要的变量名称。

2.2.2数据的直接输入

定义好了变量就可以开始输入数据。

如果样本不大，变量不多，可以直接在SPSS中DataView窗口输入数据。

输入方法就如同在Excel中输入一样，每一个变量占一列，每一行代表一个被观测个体的记录或一份问卷（Case），数据就录在行列交叉处。

和其他常用统计软件相比，SPSS数据界面最大的优势就是支持鼠标的拖放操作，以及拷贝粘贴等命令，下面的数据输入技巧就是对这些功能的利用。

1、连续多个相同值的输入

如前面group变量有连续多个1，如果直接输入，可以在第一格内输入1并回车，然后回到刚才的单元格并单击右键，选择copy，最后用拖放方式选中所有应输入1的单元格，单击右键并选择paste，所有选中的单元格就会都被刚才拷贝的1填充。

图2.3复制变量定义信息

2、将EXCEL数据直接引入SPSS

若已有Excel数据文件，而且数据量较少，可直接打开原数据，用拷贝粘贴的方法将数据引入SPSS：

先在EXCEL中选中所有的数据（不包括变量名），然后选择拷贝命令；然后切换到SPSS，最好使行1列1单元格成为当前单元格，然后执行粘贴命令，数据就会全部转入SPSS，再修改相应的变量类型、宽度、小数位数等即可。

输入完毕，从File菜单上选取SaveAs命令将其保存。

SPSS数据文件扩展名为.SAV。

单击保存类型下拉菜单，可选择保存为其他格式的数据文件，如Excel文件、dBase文件等。

如图2.4所示。

图2.4SaveAs对话框

2.3从其他文件转换成SPSS数据文件

●数据读入方法

若数据文件已以其他格式存在，如EXCEL格式、LOTUS格式、dBase格式、TEXT格式等，可以在SPSSDataEditor窗口直接读入。

选择菜单File→Open→Data或直接单击快捷工具栏上的“

”按钮，系统就会弹出OpenFile对话框，单击“文件类型”列表框，在里面能看到直接打开的数据文件格式，见表2.2。

选择所需的文件类型，然后选中需要打开的文件，SPSS就会按你的要求打开你要使用的数据文件，并自动转换为数据SPSS格式。

表2.2SPSS可读入的数据文件列表

SPSS（*.sav）

SPSS数据文件（6.0～10.0版）

SPSS/PC+（*.sys）

SPSS4.0版数据文件

Systat（*.syd）

*.syd格式的Systat数据文件

Systat（*.sys）

*.sys格式的Systat数据文件

SPSSportable（*.por）

SPSS便携格式的数据文件

EXCEL（*.xls）

EXCEL数据文件（从5.0版～2000版）

Lotus（*.w*）

Lotus数据文件

SYLK（*.slk）

SYLK数据文件

dBase（*.dbf）

dBase系列数据文件，（从dBaseII～IV）

Text（*.txt）

纯文本格式的数据文件

data（*.dat）

纯文本格式的数据文件

●读入EXCEL数据文件的步骤

首先，选取File→Open→Data，打开已保存的SPSS数据文件或其他类型的数据文件；然后单击文件类型，下拉菜单选择Excel（*.xls），如图2.6。

如Excel文件第一行为变量名，则选中ReadVariableNamesfromthefirstrowofData选项，如图2.7；并表名，如sheet2[A1：

D5]。

图2.6openfile对话框

图2.7读入EXCEL变量名选项

图2.8读入EXCEL数据表名的选择

SPSS数据整理与转换

输入数据以后，需要先对数据进行一些整理，如根据数据分析目的，按变量分组、合并、加权、重新定义或计算新变量等，以为最终的统计分析做准备。

这些功能集中在Data和Transform菜单项中，下面将以一个案例来介绍一些常用的功能。

3.1一个案例

有研究者为了解重庆市南坪地区促销方式特征，进行一次“南坪商圈促销方式及效果调研”活动，所设计的调查问卷如表3.1，收集了312份有效问卷，并建立了SPSS数据文件——111.sav。

打开该数据文件后，图3.1a显示的是该文件的DataView窗口，而b图是VariableView窗口。

表3.1南坪商圈促销方式与效果调研调查问卷

1.你从事的职业是

①销售类（停止调查）②非销售类

2.你最近一个月内是否接受过类似调查:

①是（停止调查）②否

3.你的性别:

①男②女

4.你所属的年龄阶段是:

①25岁以下②25—35岁③35—45岁④45岁以上

5.你的月收入属于下列哪个阶段：

①1000元以下②1000—1500元③1500—2000元④2000元以上

6.你见过哪些促销方式:

（多选）

①特价销售②免费品尝③买商品赠礼品④买满一定金额返代金券

⑤换购⑥广告促销⑦其他___________

7.请将第5题的促销方式的代号进行排序:

（按喜欢程度由强到弱）

___________________________________________________________

8.你最近一次参加的促销活动的促销方式是什么?

①特价销售②免费品尝③买商品赠礼品④买满一定金额返代金券

⑤换购⑥广告促销⑦其他___________

9.你最近一次参加促销活动的消费是元？

10.你对商场的促销活动的态度:

①反感②不感兴趣③喜欢

11.遇到促销活动，你会:

①一次买很多②不理睬③有需要就买④认为物美价廉就买

………………

图3.1a111.sav的DataView窗口

图3.1b111.sav的VariableView窗口

3.2数据整理

●排序SortCases

选择菜单Data→SortCases，系统弹出SortCases对话框。

该对话框并不复杂，左方是可用于排序的变量，中间是一个箭头符号，右边上面是已确定的排序变量（在Sortby下的框里），右边下方则是SortOrder单选钮，有升序和降序两种选择。

具体方法是：

先可选择某一变量（如图3.2a中的分组变量[income]），点击中间的箭头使选中变量到Sortby框里，然后选择升序（Ascending）或降序（Descending）单选钮。

若还要按其他变量排序，可继续上面的做法，只是排在前面的变量有排序优先权。

如图3.2a中的可排序变量income和age，若Sortby框中income在age的前面（见图3.2b），排序时就会先满足income的排序要求，再满足age的排序要求。

a选择income按升序排

b再选择age排序

图3.2SortCases对话框

●合并数据文件MergeFiles

若案例中收集到的有效问卷超过1000份，研究者就必须建立至少两个同变量结构的SPSS数据文件，假定除了111.sav以外，还有222.sav；或者，因为变量个数太多，研究者建立了两个各含半数变量的SPSS数据文件——111.sav和333.sav。

现要把上述两种情况下的

展开阅读全文