SPSS在计量地理学中的应用精简解析.docx
《SPSS在计量地理学中的应用精简解析.docx》由会员分享,可在线阅读,更多相关《SPSS在计量地理学中的应用精简解析.docx(64页珍藏版)》请在冰点文库上搜索。
SPSS在计量地理学中的应用精简解析
SPSSFORWINDOWS
在计量地理学中的应用
二○○八年六月
闽江学院地理科学系
目录
第一章SPSS概述3
第一节SPSS简介3
第二节SPSS的主界面3
第二章SPSS的数据管理5
第一节定义变量5
第二节数据的输入与编辑7
第三节数据转换8
第三章摘要性分析11
第一节Frequencies过程11
3.1.1主要功能11
3.1.2实例操作11
第二节Descriptives过程16
3.2.1主要功能16
3.2.2实例操作16
第四章相关分析19
第一节Bivariate过程19
4.1.1主要功能19
4.1.2实例操作19
第二节Partial过程22
4.2.1主要功能22
4.2.2实例操作22
第三节Distances过程25
4.3.1主要功能25
4.3.2实例操作25
第五章回归分析30
第一节Linear过程30
5.1.1主要功能30
5.1.2实例操作30
第二节CurveEstimation过程33
5.2.1主要功能33
5.2.2实例操作34
第三节Nonlinear过程36
5.3.1主要功能36
5.3.2实例操作37
第六章分类分析41
第一节K-MeansCluster过程41
6.1.1主要功能41
6.1.2实例操作41
第二节HierarchicalCluster过程45
6.2.1主要功能45
6.2.2实例操作45
第三节Discriminant过程50
6.3.1主要功能50
6.3.2实例操作51
第七章因子分析58
7.1主要功能58
7.2实例操作58
第一章SPSS概述
第一节SPSS简介
SPSS是英文StatisticalPackagefortheSocialScience(社会科学统计软件包)的缩写。
20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。
20世纪80年代以前,SPSS统计软件主要应用于企事业单位。
1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。
SPSS名为社会科学统计软件包,这是为了强调其在社会科学应用的一面(因为社会科学研究中的许多现象都是随机的,要使用统计学来进行研究),而实际上广泛应用于经济学、社会学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域。
SPSS现已推广到多种各种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。
和国际上几种统计分析软件比较,它的优越性更加突出。
在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的总体印象分的统计中,其诸项功能均获得最高分①。
在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。
SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。
SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。
SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
第二节SPSS的主界面
启动SPSS后,出现SPSS主界面(数据编辑器)。
同大多数Windows程序一样,SPSS是以
菜单驱动的。
多数功能通过从菜单中选择完成。
主菜单包括十个菜单项
File:
“文件”菜单用于新建SPSS各种类型文件,打开一个已存在的文件,从文本文件或其它数据源读入数据。
Edit:
“编辑”菜单用于撤消操作、剪切、复制、粘贴、查找、改变SPSS默认设置等。
View:
运用“视图”菜单显示或隐藏状态行、工具栏、网络线、值标签和改变字体。
Data:
运用“数据”菜单对SPSS数据文件进行全局变化,例如定义变量,合并文件,转置变量和记录,或产生分析的观测值子集等。
Transform:
“转换”菜单在数据文件中对所选择的变量进行变换,并在已有变量值的基础上计算新的变量。
Analyze:
“分析”菜单在以前版本中为“统计(Statistics)”,可进行各种统计分析,包括各种统计过程(Procedure),如回归分析、相关分析、因子分析等等。
Graphs:
“图表”菜单产生条形图、饼图、直方图、散点图和其它全颜色、高分辨率的图形,以及动态的交互式图形。
有些统计过程也产生图形,所有的图形都可以编辑。
Utilities:
“工具”菜单可以显示数据文件和变量的信息,定义子集,运行脚本程序,自定义SPSS菜单等。
Window:
“窗口”菜单用于选择不同窗口和最小化所有窗口。
Help:
“帮助”菜单包含SPSS帮助主题、SPSS教程、SPSS公司主页、统计教练等菜单项。
第二章SPSS的数据管理
启动SPSS后,出现的界面是数据编辑器窗口(如图2-11所示),它的底部有两个标签:
[DataView(数据视图)]和[VariableView(变量视图)],它们提供了一种类似于电子表格的方法,用以产生和编辑SPSS数据文件。
[DataView]用于查看、录入和修改数据,[VariableView]定义和修改变量的定义。
如果使用过电子表格如MicrosoftExcel等,那么数据编辑窗口的许多功能应该已经熟悉。
但是,还有一些明显区别:
(1)列是变量,即每一列代表一个变量(Variable)或一个被观测量的特征。
例如问卷上的每一项就是一个变量。
(2)行是观测,即每一行代表一个个体、一个观测、一个样品,在SPSS中称为事件(Case)。
例如,问卷上的每一个人就是一个观测。
(3)单元包含值,即每个单包括一个观测中的单个变量值。
单元(Cell)是观测和变量的交叉。
与电子表格不同,单元只包括数据值而不能含公式。
(4)数据文件是一张长方形的二维表。
数据文件的范围是由观测和变量的数目决定的。
可以在任一单元中输入数据。
如果在定义好的数据文件边界以外键入数据,SPSS将数据长方形延长到包括那个单元和文件边界之间的任何行和列。
如果要分析的数据还没有录入,可用数据编辑器来键入数据并保存为一个SPSS数据文件(其默认扩展名为.sav)。
第一节定义变量
输入数据前首先要定义变量。
定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式,步骤如下:
单击数据编辑窗口中的[VariableView]标签或双击列的题头(Var),显示如所示的变量定义视图,在出现的变量视图中定义变量。
每一行存放一个变量的定义信息,包括[Name]、[Type]、[Width]、[Decimal]、[Label]、[Value]、[Missing]、[Columns]、[Align]、[Measure]等。
图2-1定义变量
1、[Name]:
定义变量名
变量名必须以字母或字符@开头,其他字符可以是任何字母、数字或_、@、#、$等符号。
变量名总长度不能超过8个字符(即4个汉字)。
2、[Type]:
定义变量类型
SPSS的主要变量类型有:
Numeric(标准数值型)、Comma(带逗点的数值型)、Dot(逗点作小数点的数值型)、ScientificNotation(科学记数法)、Date(日期型)、Dollar(带美元符号的数值型)、CustomCurrency(自定义型)、String(字符型)。
单击[Type]相应单元中的按钮,显示如图2-13所示的对话框,选择合适的变量类型并单击[OK]。
图2-2变量类型
3、[Width]:
变量长度
设置数值值变量的长度,当变量为日期型时无效。
4、[Decimal]:
变量小数点位数
设置数值值变量的小数点位数,当变量为日期型时无效。
5、[Label]:
变量标签
变量标签是对变量名的进一步描述,变量只能由不超过8个字符组成,8个字符经常不足以表示变量的含义。
而变量标签可长达120个字符,变量标签对大小写敏感,显示时与输入值完全一样,需要时可用变量标签对变量名的含义加以解释。
6、[Value]:
变量值标签
值标签是对变量的每一个可能取值的进一步描述,当变量是定类或定序变量时,这是非常有用的。
单击[Value]相应单元,在如图2-3所示的对话框中进行设置。
图2-3修改变量标签和值标签
7、[Missing]:
缺失值的定义方式
SPSS有两类缺失值:
系统缺失值和用户缺失值。
在数据长方形中任何空的数字单元都被认为系统缺失值,用点号(·)表示。
SPSS可以指定那些由于特殊原因造成的信息缺失值,然后将它们标为用户缺失值,统计过程识别这种标识,带有缺失值的观测被特别处理。
默认值为[None]。
单击[Value]相应单元中的按钮,可改变缺失值定义方式,如图2-4所示。
图2-4改变缺失值的定义方式
8、[Column]:
变量的显示宽度
输入变量的显示宽度,默认为8。
9、[Align]:
变量显示的对齐方式
选择变量值显示时的对齐方式:
[Left(左对齐)]、[Right(右对齐)]、[Center(居中对齐)]。
10、[Scale]:
变量的测量尺度
正如前面所说的,变量按测量精度可以分为定类变量、定序变量、定距变量和定比变量,定距变量和定比变量经常不加以区别。
如果变量为定距变量或定比变量,则在[Scale]相应单元的下拉列表中选择[Scale];如果变量为定序变量,则选择[Ordinal];如果变量为定类变量,则选择[Nominal]。
如果有许多个变量的类型相同,可以先定义一个变量,然后把该变量的定义信息复制给新变量。
具体操作为:
先定义一个变量,在该变量的行号上单击右钮,弹出快捷菜单,选择[Copy];然后用鼠标右钮选择多行,弹出快捷菜单,选择[Paste];再把自动产生的新变量名称(如Var0001、Var0002、Var0003、⋯⋯)改为所要的变量名称。
定义了所有变量后,单击[DataView]即可在数据视图中输入数据。
第二节数据的输入与编辑
定义了变量后就可以输入数据了,数据窗口如图2-5所示。
图2-5数据文件格式
由于各种原因,已经输入的数据往往会有错误,这就需要进行编辑。
用Windows的基本操作方式可实现对数据的编辑,例如,可用方向键或鼠标移动到要修改的单元,键入新值。
如果数据文件较大且知道要修改的数据单元的行号,可通过选择[Data]=>[GotoCase]打开如所图2-6示的对话框,在对话框中[CaseNumber]的右框输入行号来查找特定观测(行)。
如果要查找某变量中的特定值或值标签,选择该变量,再选择[Edit]=>[Find]或者按Ctrl+F打开如图2-7所示的对话框,在[Searchfor]右框中输入要查找的数值或标签。
图2-6指向观测对话框
图2-7查找数据对话框
第三节数据转换
在理想情况下,输入的原始数据完全适合要执行的统计分析类型,遗憾的是,这种情况很罕见,经常需要通过数据转换来提示变量之间的真实关系。
利用SPSS可进行从简单到复杂的数据转换。
例如:
1、根据已存在的变量建立新变量
选择[Transform]=>[Compute],打开如图2-8所示的[ComputeVariable(计算变量)]对话框。
在对话框中的[TargetVariable(目标变量)]下框中输入符合变量命名规则的变量名,目标变量可以是现存变量或新变量。
对话框中[NumericExpression(数值表达式)]下的文本框用于输入计算目标变量值的表达式。
表达式能够使用左下框列出的现存变量名、计算器板列出的算术运算符和常数和[Functions(函数)]列表框显示的各种函数等。
可以在文本框中直接输入和编辑表达式,也可以使用变量列表、计算器板和函数列表将元素粘贴到文本框中。
计算器板包括数字、算术运算符、关系运算符和逻辑运算符,可以象使用计算器一样使用它们。
计算器板上的算术运算符有+(加)、-(减)、*(乘)、/(除)、**(指数)、()(运算符顺序);关系运算符有<(小于)、>(大于)、<=(小于等于)、>=(大于等于)、=(等于)、~=(不等于)等;逻辑运算符有&(and,与运算,A、B两关系均为真时A&B才为真)、|(or,或运算,A、B任一关系为真时A|B即为真)、~(not,非与算,颠倒表达式的真假结果,A为真则~A为假,A为假则~A为真)。
函数表70多个函数,包括算术函数、统计函数、分布函数、逻辑函数、日期和时间汇总与提取函数、缺失值函数、字符串函数、随机变量函数等等,例如自然对数LN()、绝对值对数ABS()、求和函数SUM()等。
计算器板下面有一个[IF]按钮,单击该按钮打开条件表达式对话框。
在条件表达式对话框中指定一个逻辑表达式,一个逻辑表达式对每一个观测(case)返回真、假或缺失值。
如果一个逻辑表达式的结果是真,就把转换应用于那个观测;如果结果是假或缺失值,就不对那个观测应用转换。
图2-8计算变量对话框
2、对观测(case)记录进行排序
在数据文件中,可根据一个或多个排序变量的值重排观测的顺序。
选择[Data]=>[SortCases],打开[SortCases]对话框,如图2-9所示。
图2-9观测排序对话框
3、观测或变量转置
SPSS中将行作为观测,列作为变量。
对那些观测和变量的行列关系与此相反的数据文件,可以选择[Data]=>[Transpose]将行列互换,对话框如图2-10所示。
图2-10转置对话框
4、文件合并
可以将两个或更多个数据文件合并在一起,即可将具有相同变量但观测不同的文件合并,也可将观测相同变量不同的文件相合并。
选择[Data]=>[MergeFiles]=>[Addcases]从第二个文件即外部SPSS数据文件向当前工作数据文件追加观测。
选择[Data]=>[MergeFiles]=>[AddVariables]合并含有相同观测但不同变量的两个SPSS外部文件。
5、选取观测子集
可以选择[Data]=>[SelectCases]根据包含变量和复杂的表达式的准则把统计分析限于某一特定观测子集,也可选取一个随机观测样本。
这样就可以同时对不同的观测子集作不同的统计分析。
6、其它转换
数据汇总,[Data]=>[Aggregate];
数据加权,[Data]=>[WeightCases];
数值编码,[Transform]=>[Recode];
数据求秩,[Transform]=>[RankCases];
产生时间序列,[Transform]=>[CreateTimeSeries];等等。
第三章摘要性分析
摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。
统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。
通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和χ2检验。
本章将介绍其操作方法。
第一节Frequencies过程
3.1.1主要功能
调用此过程可进行频数分布表的分析。
频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。
3.1.2实例操作
[例3-1]调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。
7.437.886.887.807.048.056.977.127.358.05
7.957.567.507.887.207.207.207.437.127.20
7.507.357.887.437.586.507.437.126.976.80
7.357.507.206.437.588.036.977.437.357.35
7.587.586.887.657.047.128.127.507.046.80
7.047.207.657.437.657.766.737.207.507.43
7.357.957.357.476.507.658.167.547.277.27
6.727.657.277.047.726.886.736.736.737.27
7.587.357.507.277.357.357.278.167.037.43
7.357.957.047.657.277.728.437.507.657.04
3.1.2.1数据准备
激活数据管理窗口,定义血清总蛋白含量的变量名为X,然后输入血清总蛋白含量的原始数据。
3.1.2.2统计分析
选择[Analyze]=>[DescriptiveStatistics]=>[Frequencies…],打开[Frequencies]主对话框,图3-1。
在主对话框左边列表中选定变量X,单击按钮使之进入[Variables(s)]列表框。
图3-1Frequencies对话框
【Displayfrequencytables复选框】
确定是否在结果中输出频数表。
【Statistics钮】
单击后弹出Statistics对话框如图3-2,用于定义需要计算的其他描述统计量。
图3-2FrequenciesStatistics
现将各部分解释如下:
oPercentileValues复选框组定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsfor equalgroups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5。
oCentraltendency复选框组用于定义描述集中趋势的一组指标:
均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
oDispersion复选框组用于定义描述离散趋势的一组指标:
标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。
oDistribution复选框组用于定义描述分布特征的两个指标:
偏度系数(Skewness)和峰度系数(Kurtosis)。
oValuesaregroupmidpoints复选框当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。
【Charts钮】
弹出Charts对话框,用于设定所做的统计图。
oCharttype单选钮组定义统计图类型,有四种选择:
无、条图(Barchart)、圆图(Piechart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(Withnormalcurve)。
oChartValues单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度)。
【Format钮】
弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。
oOrderby单选钮组定义频数表的排列次序,有四个选项:
Ascendingvalues为根据数值大小按升序从小到大作频数分布;Descendingvalues为根据数值大小按降序从大到小作频数分布;Ascendingcounts为根据频数多少按升序从少到多作频数分布;Descendingcounts为根据频数多少按降序从多到少作频数分布。
oMultipleVariables单选钮组如果选择了两个以上变量做频数表,则Comparevariables可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示。
oSuppressTablesmorethan...复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。
3.1.2.3结果解释
在输出结果窗口中将看到如下统计数据:
系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Validpercent为各组频数占总例数的有效百分比、CumPercent为各组频数占总例数的累积百分比。
XValidCum
ValueLabelValueFrequencyPercentPercentPercent
6.4311.01.01.0
6.5022.02.03.0
6.7211.01.04.0
6.7344.04.08.0
6.8022.02.010.0
6.8833.03.013.0
6.9733.03.016.0
7.0311.01.017.0
7.0477.07.024.0
7.1244.04.028.0
7.2077.07.035.0
7.2777.07.042.0
7.351111.011.053.0
7.4388.08.061.0
7.4711.01.062.0
7.5077.07.069.0
7.5411.01.070.0
7.5611.01.071.0
7.5855.05.076.0
7.6577.07.083.0
7.7222.02.085.0
7.7611.01.086.0
7.8011.01.087.0
7.8833.03.090.0
7.9533.03.093.0
8.0311.01.094.0
8.0522.02.096.0
8.1211.01.097.0
8.1622.02.099.0
8.4311.01.0100.0
--------------------
Total100100.0100.0
接着输出各基本统计指标,其中均