2数据文件的建立与编辑.docx

上传人:b****2 文档编号:3087136 上传时间:2023-05-05 格式:DOCX 页数:32 大小:1.14MB
下载 相关 举报
2数据文件的建立与编辑.docx_第1页
第1页 / 共32页
2数据文件的建立与编辑.docx_第2页
第2页 / 共32页
2数据文件的建立与编辑.docx_第3页
第3页 / 共32页
2数据文件的建立与编辑.docx_第4页
第4页 / 共32页
2数据文件的建立与编辑.docx_第5页
第5页 / 共32页
2数据文件的建立与编辑.docx_第6页
第6页 / 共32页
2数据文件的建立与编辑.docx_第7页
第7页 / 共32页
2数据文件的建立与编辑.docx_第8页
第8页 / 共32页
2数据文件的建立与编辑.docx_第9页
第9页 / 共32页
2数据文件的建立与编辑.docx_第10页
第10页 / 共32页
2数据文件的建立与编辑.docx_第11页
第11页 / 共32页
2数据文件的建立与编辑.docx_第12页
第12页 / 共32页
2数据文件的建立与编辑.docx_第13页
第13页 / 共32页
2数据文件的建立与编辑.docx_第14页
第14页 / 共32页
2数据文件的建立与编辑.docx_第15页
第15页 / 共32页
2数据文件的建立与编辑.docx_第16页
第16页 / 共32页
2数据文件的建立与编辑.docx_第17页
第17页 / 共32页
2数据文件的建立与编辑.docx_第18页
第18页 / 共32页
2数据文件的建立与编辑.docx_第19页
第19页 / 共32页
2数据文件的建立与编辑.docx_第20页
第20页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

2数据文件的建立与编辑.docx

《2数据文件的建立与编辑.docx》由会员分享,可在线阅读,更多相关《2数据文件的建立与编辑.docx(32页珍藏版)》请在冰点文库上搜索。

2数据文件的建立与编辑.docx

2数据文件的建立与编辑

第二讲:

数据文件的建立与编辑管理

一、数据文件的建立

1、测量方式(Measure)

运用统计学方法分析时十分强调“对号入座”。

SPSS中变量有三种测量方式,分别是:

尺度变量(Scale)

顺序变量(Ordinal)、

分类变量(Nominal):

各对应与统计学中的计量资料、等级资料以及计数资料(包括二分类与无序多分类)。

在SPSS的默认的情况下,所有的数值、文字输入都将被作为Scale处理,不同的是输入数值将完整保留,而文字全都是被转变为

2、定义变量(VariableView)

运行SPSS后,将进入DataEditor界面,如下:

窗口顶部显示为“SPSSDataEditor”,表明现在所看到的是SPSS的数据管理窗口。

这是一个典型的Windows软件界面,有菜单栏、工具栏。

特别的,工具栏下方的是数据栏,数据栏下方则是数据管理窗口的主界面。

该界面和EXCEL极为相似,由若干行和列组成,每行对应了一条记录(Case),每列则对应了一个变量(Variable)。

由于现在我们没有输入任何数据,所以行、列的标号都是灰色的。

请注意第一行第一列的单元格边框为深色,表明该数据单元格为当前单元格。

如果直接输入数据很可能不能满足统计分析的要求,所以首先要定义变量。

单击VariableView:

这就是变量定义窗口,我们需要对变量名称(Name)、类型(Type)、宽度(Width)、小数位数(Decimals)、变量标签(Label)、变量值标签(Values)、缺失值(Missing)、显示数据的宽度(Columns)、对齐方式(Align)、测量方式(Measure)。

Name:

总长度不可以超过8个字符(4个汉字);系统不分大小写,首字符必须是字母(或汉字),其后可接字母或数字,尽量不要在变量名称中使用标点符号或运算符号(例如:

、-、!

、*等);不可以将下划线“_”和圆点“.”作为变量名的最后一个字符(但是在中文输入法,例如清华紫光时上述法则有时不成立);变量名不可使用“all、and、by、eq、ge、gt、le、ne、not、or、to、with等SPSS系统保留字。

Type:

在SPSS系统中,共有8种类型的变量设置,单击Type:

Numeric:

标准数值型;这是系统默认型别,可以在width和decimal中调节总长度与小数位数(小数点也占一位)。

Comma:

带逗号的数值型;整数部分从右向左每3位加一个逗号;例如原始数据是6789.401,如果选择comma,则按照6,789.401录入;在dataview中SPSS将它还原为6789.401。

Dot:

带句号的数值型;整数部分从右向左每3位加一个圆点而小数点表达为逗号;例如原始数据是7889.12,如果选择dot,则按照7.889,12录入;在dataview中SPSS仍将表达为7.889,12。

Scientificnotation:

科学计数型;例如原始数据为78.123,输入时仍可按照78.123输入,但是SPSS将会把它转变为7.8E+01(7.8123×101)表达。

Date:

日期型;使用者可以从系统提示的日期显示形式中选择自己需要的;

例如选择dd-mmm-yyyy,则2009年2月20日应该输入为20-FEB-2009;如果选择mm/dd/yyyy,则应该输入为02/20/2009。

但是无论是何种输入方式,data型资料将不能直接参与运算,必须通过有关的日期转换函数转换后才行。

Dollar:

带美元符号的数值型;使用者可以从系统提供的形式中选择,系统将自动生成美元符号。

默认为11位数(1000亿),如果超出将按照科学计数法表达,同时数据前加美元符号。

Customcurrency:

自定义数值型;共有5种形式,系统将其分别命名为CCA(CC为customcurrency的简写,A表示第一种)至CCE,可以在edit-option-currency选项卡中作定义,定义之后可以从sampleoutput预览修改结果。

String:

字符串型;选择该中表达类型后,使用者可以在dataview中输入中文或英文。

字符串型变量不能参与统计运算,而且字符串中大小写字母将被系统辨认为两个完全不同的字符。

Width:

输入时的变量值宽度,默认为8位。

Decimals:

小数位数,默认为2位。

Label:

变量标签;用于说明变量所代表的实际意义,特别对于在name中无法准确表达的变量名称可以通过标签详细说明。

Values:

变量值标签;用于详细说明变量值的具体意义,特别是对于分类变量或等级变量往往用具体数值代替分类或等级,此时最好定义数值的变量标签以备分析与查阅方便。

例如变量名称为sex,其label为调查对象性别,values分别是0代表男性、1代表女性。

Missing:

缺失值定义;在统计数据录入过程中有时会遇到观察值不详或数据录入失误,此时可以定义缺失值。

Nomissingvalues:

无缺失值,系统默认。

Discretemissingvalues:

离散的缺失值;例如性别的取值定义为0-男,1-女;但是在输入过程中有时可能会误录为3或其他非0、1数值,此时可以设定2、3、4为缺失值,如果在数据输入时出现2、3、4系统将按照缺失值处理,该单元格为一个空格。

Rangeplusoneoptionaldiscretemiss:

定义某一个范围,同时还有一个不在此范围的单一数值作为缺失值(区间);例如人群身高调查,正确的数值介于(0,1.9),可在low中填入1.9,high中可以任意填一个十分大的数值如1000。

以上定义常常可以与frequencies命令结合使用。

Columns:

显示时的变量值宽度;显示宽度不影响机内计算,只影响显示。

Align:

对齐方式;可选择左/中/右对齐。

Measure:

意义如前所述;该项设置在绘制交互作用统计图时十分有用。

通常,即使是分类变量与等级变量,输入时仍然将变量当作数值录入,并在values中说明,使得这些变量参与统计分析。

3、数据的录入:

单击DataView选项卡,将鼠标移到单元格上,单击该单元格就可以输入数据。

要注意数据编排的顺序:

 

变量编排方向

数据输入方向

在SPSS中变量以及数据编排的顺序是有一定规律的:

变量总是在最上方,从左到右编排;而数据总是在所对应的变量下方,自上而下编排;这一特点与Excel不同,在Excel中变量所对应的数值既可以横排,也可以纵排。

另外,要注意变量值的格式(Type),一旦在variableview中定义完毕,就要按照要求输入,否则系统会将其作为缺失值处理。

*请将课本P8-9,例2.1的数据输入SPSS中。

*请将课本P13,习题1、2的数据输入SPSS中

4、查看变量信息与文件信息:

变量值输入之后可以用Utilities菜单中的Variable命令,或单击工具栏中的“

”图标,即可打开变量信息对话框。

对话框显示的是光标所在位置变量值对应的变量信息。

该对话框中的第一行是变量名(name),其后有“<”号,表示该变量是字符串变量(string);变量标签栏(label)没有信息;第三行是变量格式(type),A表示字符串型,8表示长度;往下是缺失值定义(missingvalues),none表示没有规定缺失值;接着是测量方式(measurement),表示为分类变量(nominal),所以该变量所对应的变量值11、12、15没有大小之别,仅仅起区分作用。

如果数据库中有很多变量,如果要一一点击查看比较麻烦,可以通过查看文件信息,显示该数据库中所有变量的信息。

具体操作方法为:

Utilities—FileInfo,我们将在结果输出窗口(SPSSViewer)看到该数据库变量信息。

二、数据文件的编辑整理

1、数据文件的编辑与管理——File菜单

新建

打开

打开数据库

从文本文档读取

保存

另存为

显示数据文件信息

建立数据缓冲区

打印

打印预览

切换服务器

停止运算

最近使用过的数据

最近使用过的文件

退出

New:

在新建下有5个命令,分别是新建数据(data)、新建语法输入(syntax)、新建输出窗口(output)、新建草稿输出(draftoutput)和新建脚本(script)。

事实上,当进入SPSS后系统就已经生成了一个空数据文件;对于SPSS旧版本的用户,也可通过syntax对话框建立新数据。

Open:

打开选项下同样也有5个命令,基本与新建相同。

在打开.xls文件时请先退出Excel,否则系统提示出错;打开后Excel文件中的所有数据都会忠实再现,默认type为numeric,measure为scale;而.xls文件中的文字有时会将消失,可通过定义type为string,以及复制粘贴的方法再现。

请注意excel文件的变量以及数据编排方式,否则在读取数据后还要作进一步转换。

在工具栏中有其快捷按钮“

”。

OpenDatabase:

即所谓的ODBC接口(OpenDatabaseCapture);该接口为微软所建立,被大多数的数据库(如MSAccess)软件和办公软件(如MSOffice)所支持,通过它应用程序可以直接访问以结构化查询语言(SQL)作为数据访问标准的数据库系统。

ReadTextData:

实际上该功能可以用Open命令完成。

请注意文.txt文件中变量以及变量值的编排规则,否则在读取数据后还要作进一步转换。

Save:

请及时保存文件;save命令将保存文件中的所有内容;有时在我们处理数据的过程中系统会生成一些临时的变量,如果不想将它们也一起保存,可以采用saveas命令,选择想保留的变量名称另存为其他文件。

在工具栏中有其快捷按钮“

”。

DisplayDataInfo:

会在SPSSViewer中输出数据文件的信息以及数据文件中所包含的变量的信息。

CacheData:

如果系统从远程SQL数据库中调用数据将会很费时间,使用该命令会将数据全部读入暂存盘,建立数据缓冲区,大大加快运行速度;如果处理本机的数据,该命令的提速效果不明显。

Print/PrintPreview:

可以修改打印机设置,并在打印前预览打印效果。

在工具栏中有其快捷按钮“

”。

SwitchServer:

该命令主要用于使用SPSS服务器(SPSSServer)客户端的计算机。

StopProcessor:

强制停止SPSS运行。

RecentUsedData/Files:

用于快速打开最近使用的数据或文件。

Exit:

退出程序,请及时保存输入数据。

2、数据文件的编辑与管理——Edit菜单

撤销操作

恢复所撤销动作

剪切

复制

粘贴

粘贴变量

清除

寻找

系统参数设置

该菜单下的命令与Word或Excel中的功能基本一致;需要解释的主要是pastevariables与find。

PasteVariables:

在运算时我们可能会用到存在于其他.sav文件中的变量及其所对应的变量值。

通常的做法是选择该变量的变量值,复制粘贴到新的数据文件中,但是这样作仅仅拷贝了变量值,而对于该变量的其他信息,例如type、label、values等信息仍然需要重新定义;使用pastevariables命令则可拷贝该变量的变量设置信息。

注意该命令须在variableview中使用。

Find:

查找制定变量中的制定数据;例如要查找SPSS自带的1991U.S.generalsocialsurvey文件中age变量为50的个体。

首先打开该文件,在dataview中单击age变量所在列的任一单元格,点击find或直接从工具栏中点击

,在弹出的对话框中键入50,点击OK即可。

3、数据文件的编辑与管理——Data菜单

定义变量属性

拷贝数据属性

生成时间系列周期

插入变量

插入观察单位

转到观察单位

排序

行列转置

改变排列格式

合并(变量或观察单位)

分类汇总

正交设计

拆分文件

选择特定观察单位

加权

DefineVariableProperties:

该命令所提供的功能主要是针对nominal和ordinal类型的变量,可以在该命令的对话框中完成variableview中一些主要设置,例如type、label、value、missing、measure的设置;它的最大好处在于可以快速定义这些属性(比如通过复制另外一个类似变量的属性),以及给出一个类似频数分布表的直观视图。

CopyDataProperties:

该命令与edit菜单下的pastevariable相似,同时definevariableproperties也可以提供类似功能——将源变量的数据属性复制至目标变量。

与前面不同的是在该命令下,源变量与目标变量可以不同在同一数据中。

DefineDates:

自动生成时间变量,主要应用于时间序列模型。

InsetVariable:

有时在编辑好的数据中要添加新变量,通过该命令可以在选择的位置前插入一个新变量,而后通过上面的所介绍的命令例如definevariableproperties、CopyDataProperties,设置其具体属性。

在工具栏中有相同功能的快捷按钮“

”。

InsetCase:

添加新观察单位,可以在当前行(case)前插入新case,在工具栏中有相同功能的快捷按钮“

”。

GotoCase:

到达指定记录号的观察单位(case),该命令在观察单位极多时非常有用。

在工具栏中有相同功能的快捷按钮“

”。

SortCase:

可以将某个变量的变量值从大到小或从小到大排列;便于输入结束后进行查找,纠错。

Transpose:

通过该命令可以将原先的case转变为一个variable,而variable则转变为case。

该命令在读取一些以标准格式记录的数据时十分有用,尤其是这些数据的case很多时。

例如我们读取一个.txt文件,该文件中的记录不是很规范,经过转置后可以纠正。

系统在执行该命令过程中生成一个临时变量case_lbl,在后续的保存过程中可通过saveas将其除去。

Restructure:

许多时候按照“标准格式”输入的数据不一定可以立即满足我们的分析要求。

例如,在重复测量模型中,我们需要将同一个体多次的测量值并排在同一行上才可以分析,但是原始数据并非如此,请打开anxiety.sav。

这是原始格式

这是理想的格式

运行该命令,系统将弹出以下向导

选项一:

将选择的变量转变为观察单位(将横行数据转换为纵列)。

选项二:

将选择的观察单位转变为变量(将纵列数据转换为横行)。

选项三:

调用transpose命令。

在本例中,我们相将一列scores变为一行scores,所以选择选项二;按“下一步”

IdentifierVariable:

ID变量,即如何确定每个case。

IndexVariable:

索引变量,即如何确定因素或水平。

本例中每个subject就代表一个case,所以将subject选入IdentifierVariable;因素有一个,但是有4个水平(重复了4次),所以将trail选入IndexVariable;直接点击“完成”。

MergeFiles:

用于合并数据,包括了两个过程,纵向合并(addcases),横向合并(addvariables)。

AddCases:

从外部的数据文件中增加记录(case)到当前数据文件中,当前的文件中变量的个数不改变,但是观察单位数增多。

例如研究者研究某人群的血磷值的分布情况,先期观察了10例;而后又观察了15例;两次观察的变量都是血磷值,变量没有改变,为了分析方便考虑将两次的结果合并,称为纵向合并。

对话框左侧代表的是当前与外部数据文件中不匹配的变量名称,“*”号表示为当前数据文件中的变量,“+”号则表示外部文件数据集中的变量;右侧的对话框中表示已经匹配的变量名称。

有两种方法可以addcases。

一种是重命名匹配法(rename-pair),另外则是强行匹配法(选择两个匹配变量-pair)。

AddVariables:

从外部文件添加变量(variable)到当前文件中;例如,某研究者观察某人群的血磷值,而后又观察了相同人群的年龄、性别,为了分析需要将两次结果合并,称为横向合并;合并前后相比,观测对象没有改变,但是观察的变量增多了。

横向合并对两个数据的要求比较高,系统默认是按照相同的记录号进行合并,或者使用一个关键变量(keyvariables)进行匹配合并。

如果两个数据文件的记录数(cases)不一样多,则会丢失部分记录,甚至合并失败。

现有两个文件,损伤1与损伤2。

损伤1中包含了1-90号病例(其中有缺号)的性别、年龄、血小板值;损伤2则包含了11-100号病例的收缩压、舒张压、脑损伤情况。

Newworkingdatafile框中显示了新数据集中将出现的所有变量,“*”号表示为当前数据文件中的变量,“+”号则表示另外数据集中的变量;excludedvariable表示不会出现在新数据中的变量,由于来自于外部文件的“id号”变量与当前文件中的变量重名,所以被系统自动排除。

如果按照系统默认,两份数据的记录并不相同,合并后会出错。

因此选择matchcasesonkeyvariableinsortedfiles,有三种情况:

bothfilesprovidecases(两个文件提供的所有记录)、externalfilesiskeyedtable(以当前的文件为主,合并后的文件中只存在当前的cases)、workingdatafilesiskeyedtable(以外部的文件为主,合并后的文件中只存在外部的cases)。

很显然后两种做法信息将有损失,所以选择第一种;而后将“id号”选入keyvariable中,按OK后系统弹出以下对话框:

(如果关键变量没有按照升序排列,合并将失败)

所以切记:

在将两份数据横向合并之前必须将它们各自按照匹配变量的升序进行排列,使用之前的sortcases命令。

由于两份数据均已经排要求排列过,所以直接点击“确定”即可。

合并后的数据中将即有当前数据的cases又有外部数据的cases。

Aggregate:

所谓的分类汇总就是按照一定的分组依据将观测对象分组,并对每组的对象分别进行统计描述。

其功能与之后介绍的统计描述有些重复(不如专用描述命令功能强大),但是该命令的执行结果(即分类汇总的结果)既可以作为新文件保存,也可以用它替换当前数据。

例如将血磷值按照不同的分组分类汇总;breakvariable即为分组变量,在这里是“组别”,aggregatevariable为要描述的变量,这里为“血磷值”;将组别与血磷值分别选入对应位置后即可定义汇总函数(function)以及汇总后新产生的变量的名称与标签(name&label)。

系统默认将产生一个汇总数据文件;当然也可以选择将当前文件替换(replaceworkingdatafile)。

SplitFile:

拆分文件;该命令虽然也将原数据按照一定要求分组,但是命令本身不再有统计描述功能,仅具有aggregate命令中的分类功能,通常与统计描述的命令一起结合使用。

一旦使用该功能,DataEditor下方的状态栏将会显示

;如果将来进一步的统计分析不需要对原文件拆分(后续的统计分析命令大多都有分组因素,通常不需要将cases拆分),请将拆分数据还原。

OrthogonalDesign:

正交表设计;该命令提供了设计(Generate)与生成(Display)正交表的功能。

但是该命令所生成的正交表与理论课教材中的表格不同,表现在其表头中不出现误差列,请注意。

其具体操作见方差分析。

SelectCases:

很多时候我们不需要分析所有数据,而是按照某种要求分析其中的一部分(比如对于食管癌病例,研究者仅仅想研究原发病例,对于其他部位转移来的病例不想研究),可以采用该命令。

现研究者想分析cars.sav文件中,产于美国的汽车的输出功率。

选择ifconditionissatisfied,弹出如下对话框:

该对话框左侧为待选变量,右侧上部为表达式显示区,下部的窗口内有待选众多函数(Functions)。

将origin变量选入右上框中,键入“=1”(在variableview中,产于美国的汽车,变量值对应的value为1),点击continue,可以看到:

在该对话框的下部,Unselectedcasesare,系统默认为filtered,被过滤的cases仍然存在于原数据文件中;如果要将这些被过滤的数据删除,则选deleted(建议少用)。

被过滤掉的数据,其记录号上将被加上斜杠以示区别,同时系统将自动产生一个名为filter_$的指示变量,被过滤掉的数据为0,反之为1:

WeightCases:

在SPSS系统中,通常每一行就是一个Case,但是这一规定有时将会使输入数据十分繁琐;现某研究者要研究两种药物的疗效是否有别,分别观察了A药100例(30例无效,70例有效),B药100例(21例无效,79例有效);按照默认要求数据文件中必须至少设定两个变量,分别是:

药物(1=A,2=B)以及治疗效果(0=无效,1=有效),每行代表一个case,在输入数据时要输200行!

如果直接使用有效或无效的频数将大大减少输入工作量。

因此遇到上述情况时,通常增加一个变量:

频数——直接将30、70、21、79输入工作区中,但必须为系统指定分析时调用该列频数,这就是weightcases过程。

具体使用将在卡方检验中详述。

4、数据文件的编辑与管理——Transform菜单

通过计算生成新变量

设定伪随机函数的种子

计数并生成新计数变量

重新编码(覆盖原变量或生成新变量

等级化连续型数值变量

排序并生成新变量

自动排序

自动生成时间序列变量

填充时序变量中的缺失值

完成尚未结束的转换命令

Transform菜单主要集中了一些对变量进行转换的过程,例如对原始数据进行函数运算、重新编码、排秩次等。

它们在统计分析的预处理中起着非常重要的作用。

在这些命令中最重要的是compute命令,其他transform菜单下的命令可以看成是对compute命令在某些方面的强化。

Compute:

该命令是transform菜单中最经常使用的命令,用于给新变量赋值。

TargetVariable对话框为新变量的变量名称,变量名的定义法则与前述name的设定一样;下方可以定义该变量的type与label:

在targetvariable下方的对话框中是存在于当前文件中的所有变量,点击其中的任意一个,其右边的

按钮将显示为可用,可以将该变量选入右上方的NumericExpression对话框中。

NumericExpression用于对新变量赋值,我们既可以直接输用键盘输入,或者使用左下方系统提供的软键盘,也可以从右下方的function中选择合适的函数。

如果并非所有数据都要参与计算新变量,则可以调用IF选项,该选项的功能与Data—Selectcases相似:

软键盘区的一些运算符号:

表示≠

系统的逻辑运算符号,从左到右分别为“and”、“or”、“not”。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工程科技 > 能源化工

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2