1、SPSS在计量地理学中的应用精简解析SPSS FOR WINDOWS在计量地理学中的应用二八年六月闽江学院地理科学系目 录第一章 SPSS概述 3第一节 SPSS简介 3第二节SPSS的主界面 3第二章SPSS的数据管理 5第一节 定义变量 5第二节 数据的输入与编辑 7第三节 数据转换 8第三章 摘要性分析 11第一节 Frequencies过程 113.1.1 主要功能 113.1.2 实例操作 11第二节 Descriptives过程 163.2.1 主要功能 163.2.2 实例操作 16第四章 相关分析 19第一节 Bivariate过程 194.1.1 主要功能 194.1.2 实
2、例操作 19第二节 Partial过程 224.2.1 主要功能 224.2.2 实例操作 22第三节 Distances过程 254.3.1 主要功能 254.3.2 实例操作 25第五章 回归分析 30第一节 Linear过程 305.1.1 主要功能 305.1.2 实例操作 30第二节 Curve Estimation过程 335.2.1 主要功能 335.2.2 实例操作 34第三节 Nonlinear过程 365.3.1 主要功能 365.3.2 实例操作 37第六章 分类分析 41第一节 K-Means Cluster过程 416.1.1 主要功能 416.1.2 实例操作 41
3、第二节 Hierarchical Cluster过程 456.2.1 主要功能 456.2.2 实例操作 45第三节 Discriminant过程 506.3.1 主要功能 506.3.2 实例操作 51第七章 因子分析 587.1 主要功能 587.2 实例操作 58第一章 SPSS概述第一节 SPSS简介SPSS 是英文Statistical Package for the Social Science(社会科学统计软件包)的缩写。20 世纪60 年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS 公司,并于1975 年在芝加哥组建了SPSS 总部。
4、20 世纪80 年代以前,SPSS统计软件主要应用于企事业单位。1984 年SPSS 总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS 微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS 的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。SPSS 名为社会科学统计软件包,这是为了强调其在社会科学应用的一面(因为社会科学研究中的许多现象都是随机的,要使用统计学来进行研究),而实际上广泛应用于经济学、社会学、生物学、教育学、心理学、医学以及体
5、育、工业、农业、林业、商业和金融等各个领域。SPSS 现已推广到多种各种操作系统的计算机上,它和SAS、BMDP 并称为国际上最有影响的三大统计软件。和国际上几种统计分析软件比较,它的优越性更加突出。在众多用户对国际常用统计软件SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab 的总体印象分的统计中,其诸项功能均获得最高分。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS 软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。SPSS 的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS 统计分析过程包括描述性统计、均值比
6、较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic 回归、Probit 回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS 也有专门的绘图系统,可以根据数据绘制各种图形。第二节 SPSS的主界面启动SPSS 后,出现SPSS 主界面(数据编辑器)。同大多数Windows 程序一样,SPSS 是以菜单驱动的。多数功能通过从菜单中选择完成。主菜单包括十个菜单项File:“文件”菜单用于新建
7、SPSS 各种类型文件,打开一个已存在的文件,从文本文件或其它数据源读入数据。Edit:“编辑”菜单用于撤消操作、剪切、复制、粘贴、查找、改变SPSS 默认设置等。View:运用“视图”菜单显示或隐藏状态行、工具栏、网络线、值标签和改变字体。Data:运用“数据”菜单对SPSS 数据文件进行全局变化,例如定义变量,合并文件,转置变量和记录,或产生分析的观测值子集等。Transform:“转换”菜单在数据文件中对所选择的变量进行变换,并在已有变量值的基础上计算新的变量。Analyze:“分析”菜单在以前版本中为“统计(Statistics)”,可进行各种统计分析,包括各种统计过程(Procedu
8、re),如回归分析、相关分析、因子分析等等。Graphs:“图表”菜单产生条形图、饼图、直方图、散点图和其它全颜色、高分辨率的图形,以及动态的交互式图形。有些统计过程也产生图形,所有的图形都可以编辑。Utilities:“工具”菜单可以显示数据文件和变量的信息,定义子集,运行脚本程序,自定义SPSS 菜单等。Window:“窗口”菜单用于选择不同窗口和最小化所有窗口。Help:“帮助”菜单包含SPSS 帮助主题、SPSS 教程、SPSS 公司主页、统计教练等菜单项。第二章SPSS的数据管理启动SPSS 后,出现的界面是数据编辑器窗口(如图2-11所示),它的底部有两个标签:Data View(
9、数据视图)和Variable View(变量视图),它们提供了一种类似于电子表格的方法,用以产生和编辑SPSS 数据文件。Data View 用于查看、录入和修改数据,Variable View定义和修改变量的定义。如果使用过电子表格如Microsoft Excel 等,那么数据编辑窗口的许多功能应该已经熟悉。但是,还有一些明显区别:(1)列是变量,即每一列代表一个变量(Variable)或一个被观测量的特征。例如问卷上的每一项就是一个变量。(2)行是观测,即每一行代表一个个体、一个观测、一个样品,在SPSS 中称为事件(Case)。例如,问卷上的每一个人就是一个观测。(3)单元包含值,即每个
10、单包括一个观测中的单个变量值。单元(Cell)是观测和变量的交叉。与电子表格不同,单元只包括数据值而不能含公式。(4)数据文件是一张长方形的二维表。数据文件的范围是由观测和变量的数目决定的。可以在任一单元中输入数据。如果在定义好的数据文件边界以外键入数据,SPSS 将数据长方形延长到包括那个单元和文件边界之间的任何行和列。如果要分析的数据还没有录入,可用数据编辑器来键入数据并保存为一个SPSS 数据文件(其默认扩展名为.sav)。第一节 定义变量输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式,步骤如下:单击数据编辑窗口中的Va
11、riable View标签或双击列的题头(Var),显示如所示的变量定义视图,在出现的变量视图中定义变量。每一行存放一个变量的定义信息,包括Name、Type、Width、Decimal、Label、Value、Missing、Columns、Align、Measure等。图2-1 定义变量1、Name:定义变量名变量名必须以字母或字符开头,其他字符可以是任何字母、数字或_、#、$等符号。变量名总长度不能超过8 个字符(即4 个汉字)。2、Type:定义变量类型SPSS 的主要变量类型有:Numeric(标准数值型)、Comma(带逗点的数值型)、Dot(逗点作小数点的数值型)、Scienti
12、fic Notation(科学记数法)、Date(日期型)、Dollar(带美元符号的数值型)、Custom Currency(自定义型)、String(字符型)。单击Type相应单元中的按钮,显示如图2-13所示的对话框,选择合适的变量类型并单击OK。图2-2 变量类型3、Width:变量长度设置数值值变量的长度,当变量为日期型时无效。4、Decimal:变量小数点位数设置数值值变量的小数点位数,当变量为日期型时无效。5、Label:变量标签变量标签是对变量名的进一步描述,变量只能由不超过8 个字符组成,8 个字符经常不足以表示变量的含义。而变量标签可长达120 个字符,变量标签对大小写敏感
13、,显示时与输入值完全一样,需要时可用变量标签对变量名的含义加以解释。6、Value:变量值标签值标签是对变量的每一个可能取值的进一步描述,当变量是定类或定序变量时,这是非常有用的。单击Value相应单元,在如图2-3所示的对话框中进行设置。图2-3 修改变量标签和值标签7、Missing:缺失值的定义方式SPSS 有两类缺失值:系统缺失值和用户缺失值。在数据长方形中任何空的数字单元都被认为系统缺失值,用点号()表示。SPSS 可以指定那些由于特殊原因造成的信息缺失值,然后将它们标为用户缺失值,统计过程识别这种标识,带有缺失值的观测被特别处理。默认值为None。单击Value相应单元中的按钮,可
14、改变缺失值定义方式,如图2-4所示。图2-4 改变缺失值的定义方式8、Column:变量的显示宽度输入变量的显示宽度,默认为8。9、Align:变量显示的对齐方式选择变量值显示时的对齐方式:Left(左对齐)、Right(右对齐)、Center(居中对齐)。10、Scale:变量的测量尺度正如前面所说的,变量按测量精度可以分为定类变量、定序变量、定距变量和定比变量,定距变量和定比变量经常不加以区别。如果变量为定距变量或定比变量,则在Scale相应单元的下拉列表中选择Scale;如果变量为定序变量,则选择Ordinal;如果变量为定类变量,则选择Nominal。如果有许多个变量的类型相同,可以先
15、定义一个变量,然后把该变量的定义信息复制给新变量。具体操作为:先定义一个变量,在该变量的行号上单击右钮,弹出快捷菜单,选择Copy;然后用鼠标右钮选择多行,弹出快捷菜单,选择Paste;再把自动产生的新变量名称(如Var0001、Var0002、Var0003、)改为所要的变量名称。定义了所有变量后,单击Data View即可在数据视图中输入数据。第二节 数据的输入与编辑定义了变量后就可以输入数据了,数据窗口如图2-5所示。图2-5 数据文件格式由于各种原因,已经输入的数据往往会有错误,这就需要进行编辑。用Windows 的基本操作方式可实现对数据的编辑,例如,可用方向键或鼠标移动到要修改的单
16、元,键入新值。如果数据文件较大且知道要修改的数据单元的行号,可通过选择Data=Go to Case打开如所图2-6示的对话框,在对话框中Case Number的右框输入行号来查找特定观测(行)。如果要查找某变量中的特定值或值标签,选择该变量,再选择Edit=Find或者按Ctrl+F 打开如图2-7所示的对话框,在Search for右框中输入要查找的数值或标签。图2-6 指向观测对话框图2-7 查找数据对话框第三节 数据转换在理想情况下,输入的原始数据完全适合要执行的统计分析类型,遗憾的是,这种情况很罕见,经常需要通过数据转换来提示变量之间的真实关系。利用SPSS 可进行从简单到复杂的数据
17、转换。例如:1、根据已存在的变量建立新变量选择Transform=Compute,打开如图2-8所示的Compute Variable (计算变量)对话框。在对话框中的Target Variable (目标变量)下框中输入符合变量命名规则的变量名,目标变量可以是现存变量或新变量。对话框中Numeric Expression(数值表达式)下的文本框用于输入计算目标变量值的表达式。表达式能够使用左下框列出的现存变量名、计算器板列出的算术运算符和常数和Functions(函数)列表框显示的各种函数等。可以在文本框中直接输入和编辑表达式,也可以使用变量列表、计算器板和函数列表将元素粘贴到文本框中。计算
18、器板包括数字、算术运算符、关系运算符和逻辑运算符,可以象使用计算器一样使用它们。计算器板上的算术运算符有+(加)、-(减)、*(乘)、/(除)、*(指数)、()(运算符顺序);关系运算符有(大于)、=(大于等于)、=(等于)、=(不等于)等;逻辑运算符有&(and,与运算,A、B 两关系均为真时A&B 才为真)、|(or,或运算,A、B 任一关系为真时A|B 即为真)、(not,非与算,颠倒表达式的真假结果,A 为真则A 为假,A 为假则A 为真)。函数表70 多个函数,包括算术函数、统计函数、分布函数、逻辑函数、日期和时间汇总与提取函数、缺失值函数、字符串函数、随机变量函数等等,例如自然对数
19、LN()、绝对值对数ABS()、求和函数SUM()等。计算器板下面有一个IF按钮,单击该按钮打开条件表达式对话框。在条件表达式对话框中指定一个逻辑表达式,一个逻辑表达式对每一个观测(case)返回真、假或缺失值。如果一个逻辑表达式的结果是真,就把转换应用于那个观测;如果结果是假或缺失值,就不对那个观测应用转换。图2-8 计算变量对话框2、对观测(case)记录进行排序在数据文件中,可根据一个或多个排序变量的值重排观测的顺序。选择Data=SortCases,打开Sort Cases对话框,如图2-9所示。图2-9 观测排序对话框3、观测或变量转置SPSS 中将行作为观测,列作为变量。对那些观测
20、和变量的行列关系与此相反的数据文件,可以选择Data=Transpose将行列互换,对话框如图2-10所示。图2-10 转置对话框4、文件合并可以将两个或更多个数据文件合并在一起,即可将具有相同变量但观测不同的文件合并,也可将观测相同变量不同的文件相合并。选择Data= Merge Files=Add cases从第二个文件即外部SPSS 数据文件向当前工作数据文件追加观测。选择Data=MergeFiles=Add Variables合并含有相同观测但不同变量的两个SPSS 外部文件。5、选取观测子集可以选择Data=Select Cases根据包含变量和复杂的表达式的准则把统计分析限于某一
21、特定观测子集,也可选取一个随机观测样本。这样就可以同时对不同的观测子集作不同的统计分析。6、其它转换数据汇总,Data=Aggregate;数据加权,Data=Weight Cases;数值编码,Transform=Recode;数据求秩,Transform=Rank Cases;产生时间序列,Transform=Create Time Series;等等。第三章 摘要性分析摘要性分析是对原始数据进行描述性分析,这是统计工作的出发点。统计学的一系列基本描述指标,不仅让人了解资料的特征,而且可启发人们对之作进一步的深入分析。通过调用摘要性分析的诸个过程,可完成许多统计学指标,对于计量资料,可完成
22、均数、标准差、标准误等指标的计算;对于计数和一些等级资料,可完成构成比、率等指标的计算和2 检验。本章将介绍其操作方法。第一节 Frequencies过程3.1.1 主要功能调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。 3.1.2 实例操作例3-1调查100名健康女大学生的血清总蛋白含量(g%)如下表,试作频数表分析。7.43 7.88 6.88 7.80 7.04 8.05 6.97 7.12 7.35 8.057.95 7.56 7.50 7.88 7.20 7.20 7.20 7.43 7.12 7.207.50 7.
23、35 7.88 7.43 7.58 6.50 7.43 7.12 6.97 6.807.35 7.50 7.20 6.43 7.58 8.03 6.97 7.43 7.35 7.357.58 7.58 6.88 7.65 7.04 7.12 8.12 7.50 7.04 6.807.04 7.20 7.65 7.43 7.65 7.76 6.73 7.20 7.50 7.437.35 7.95 7.35 7.47 6.50 7.65 8.16 7.54 7.27 7.276.72 7.65 7.27 7.04 7.72 6.88 6.73 6.73 6.73 7.277.58 7.35 7.5
24、0 7.27 7.35 7.35 7.27 8.16 7.03 7.437.35 7.95 7.04 7.65 7.27 7.72 8.43 7.50 7.65 7.043.1.2.1 数据准备激活数据管理窗口,定义血清总蛋白含量的变量名为X,然后输入血清总蛋白含量的原始数据。3.1.2.2 统计分析选择Analyze=Descriptive Statistics= Frequencies,打开Frequencies主对话框,图3-1。在主对话框左边列表中选定变量X,单击按钮使之进入Variables(s)列表框。图3-1 Frequencies对话框【Display frequency ta
25、bles复选框】确定是否在结果中输出频数表。【Statistics钮】单击后弹出Statistics对话框如图3-2,用于定义需要计算的其他描述统计量。图3-2 Frequencies Statistics现将各部分解释如下:o Percentile Values复选框组 定义需要输出的百分位数,可计算四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles),如直接指定输出P2.5和P97.5。 o Central tendency复选框组 用于定义描述集中趋势的一组指标:均数(M
26、ean)、中位数(Median)、众数(Mode)、总和(Sum)。 o Dispersion复选框组 用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。 o Distribution复选框组 用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis)。 o Values are group midpoints复选框 当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。【C
27、harts钮】弹出Charts对话框,用于设定所做的统计图。o Chart type单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(With normal curve)。 o Chart Values单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。【Format钮】弹出Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。o Order by单选钮组 定义频数表的排列次序,有四个选项:Ascending values为根据数值大小按升序从小到大作频数
28、分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。 o Multiple Variables单选钮组 如果选择了两个以上变量做频数表,则Compare variables可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,Organize output by variables则将结果在不同的频数表过程输出结果中显示。 o Suppress Tables more than.复选框 当频数表的分组数大于下面设
29、定数值时禁止它在结果中输出,这样可以避免产生巨型表格。3.1.2.3 结果解释在输出结果窗口中将看到如下统计数据:系统对变量x的原始数据作频数分布表,Value为原始值、Frequency为频数、Percent为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。X Valid CumValue Label Value Frequency Percent Percent Percent 6.43 1 1.0 1.0 1.0 6.50 2 2.0 2.0 3.0 6.72 1 1.0 1.0 4.0 6.73
30、4 4.0 4.0 8.0 6.80 2 2.0 2.0 10.0 6.88 3 3.0 3.0 13.0 6.97 3 3.0 3.0 16.0 7.03 1 1.0 1.0 17.0 7.04 7 7.0 7.0 24.0 7.12 4 4.0 4.0 28.0 7.20 7 7.0 7.0 35.0 7.27 7 7.0 7.0 42.0 7.35 11 11.0 11.0 53.0 7.43 8 8.0 8.0 61.0 7.47 1 1.0 1.0 62.0 7.50 7 7.0 7.0 69.0 7.54 1 1.0 1.0 70.0 7.56 1 1.0 1.0 71.0 7.58 5 5.0 5.0 76.0 7.65 7 7.0 7.0 83.0 7.72 2 2.0 2.0 85.0 7.76 1 1.0 1.0 86.0 7.80 1 1.0 1.0 87.0 7.88 3 3.0 3.0 90.0 7.95 3 3.0 3.0 93.0 8.03 1 1.0 1.0 94.0 8.05 2 2.0 2.0 96.0 8.12 1 1.0 1.0 97.0 8.16 2 2.0 2.0 99.0 8.43 1 1.0 1.0 100.0 - - - Total 100 100.0 100.0接着输出各基本统计指标,其中均
copyright@ 2008-2023 冰点文库 网站版权所有
经营许可证编号:鄂ICP备19020893号-2