教育多元统计学与SPSS软件0104基础与T检验.docx

资源描述

教育多元统计学与SPSS软件0104基础与T检验.docx

《教育多元统计学与SPSS软件0104基础与T检验.docx》由会员分享，可在线阅读，更多相关《教育多元统计学与SPSS软件0104基础与T检验.docx（46页珍藏版）》请在冰点文库上搜索。

教育多元统计学与SPSS软件0104基础与T检验.docx

教育多元统计学与SPSS软件0104基础与T检验

内容提要

本书内容分两部分，一部分结合教育、心理学科，主要介绍多元统计的基本原理、方法及其应用，包括方差分析、相关分析、回归分析、聚类分析、判别分析、因子分析；另一部分介绍目前较为流行的SPSS软件，结合统计方法介绍软件的一般操作步骤，再针对该方法的实例给出具体计算步骤。

为使读者容易接受多元统计分析方法并尽量保持知识的连续性，简单介绍一下U检验、T检验等基本统计知识。

前言

随着社会的进步与科学技术的飞速发展，要求人们掌握更多的知识与强有力的科研工具，探索、发现、研究新问题，把握事物的内在规律性，更好地指导实践。

对于从事教育、心理学科研究的工作者，教育统计无疑是必不可少的、强有力的研究工具，特别是多元统计，随着科学化、定量化程度要求的提高，其举足轻重的地位愈来愈高。

为了使广大读者更好地掌握这门工具，本书结合教育、心理学科介绍了多元统计的基本原理与方法。

多元统计的学习，最好结合一种统计软件，以便达到事半功倍的效果，避免使所学知识与应用脱节。

目前出版的有关多元统计书籍主要有两类，一类着重介绍统计软件，附带统计知识；另一类只介绍统计知识，不介绍统计软件。

从事多元统计教学、科研的工作者，需要的是系统地介绍多元统计知识、然后辅以介绍合适的统计软件的书籍，本书正是为满足这一需要编写的。

在统计内容的选择、安排上，主要介绍多元统计部分，但考虑到系统性、完整性，简单介绍一下基本统计内容，不作为重点；在统计软件的选择、安排上，考虑到先进性、实用性，介绍SPSS统计软件。

全书在叙述上力求科学性强，概念清楚，注重理论密切联系实际。

文字做到简练、通俗易懂。

例题的选配考虑其代表性与实用性。

本书主要适用于高等院校的教师、科研工作者、研究生及有一定统计知识基础的高年级本科生；本书以教育、心理学科作为实际背景，但对其他专业，也不失其参考价值。

本书参考了有关文献，引用了其中的一些例题，在此，谨向这些编著者表示谢意。

由于水平所限，书中不足之处在所难免，敬请读者批评、指正。

第一章绪论

教育多元统计学是将多元数理统计的理论与方法应用到教育、心理学科所形成的一门学科，是从事教育、心理学科研究的工作者必不可少的研究工具。

它所研究的对象是教育、心理研究领域中的随机现象。

第一节统计内容

本书将统计知识分为一般统计与多元统计两部分。

前者包括统计资料的收集与整理、常用统计量、相对数与动态分析、正态分布的理论及其应用、假设检验（含参数与非参数检验）、参数估计、一元回归分析、方差分析、实验设计、统计图与统计表。

这部分内容本书只介绍假设检验中常用的U检验与T检验、方差分析。

后者包括相关分析、回归分析、聚类分析、判别分析、主成份分析、因子（素）分析、对应分析与典型相关分析。

除去对应分析与典型相关分析，其余内容详细介绍。

对应分析是将R型（列因素）因子分析与Q型（行因素）因子分析相结合、对指标与样品同时进行分类的一种多元统计分析方法。

计算时，首先得到R型因子分析的结果，然后据其得到Q型因子分析的结果，因此，克服了大样本时计算上的困难。

单独进行R或Q型因子分析，将行因素与列因素隔裂开来，可能会遗漏有用的信息。

典型相关分析是研究两组变量之间关系的统计方法。

为了要找出两组变量之间的关系，要求出X变量间的线性组合与Y变量间的线性组合，并使这两组的线性组合有最大的相关；X与Y的线性组合是潜在的，无法直接观察，也是未知变量，称为“典型相关（Canonicalvariable）”。

这两种多元统计分析方法的学习与使用可参考有关数理统计或统计软件书籍。

第二节统计软件

目前常用的统计软件有：

中科院的统计软件、STATISTICA生物用统计软件、SPSS统计软件（StatisticalProductandServiceSolutions——统计产品与服务解决方案，原名为社会科学统计软件包）、SAS统计软件、医学专用统计软件包、自编软件等。

本书选用较为流行的SPSS软件，它是目前世界上最优秀的统计分析软件之一，广泛应用在经济、金融、证券、生物、医药、教育、体育、农林等各个研究领域，深受广大用户的好评。

第三节注意事项

收集的数据要准确、可靠。

注意每种统计方法的适用条件，不要生搬硬套。

所得的结论不是百分之百的正确，有可能犯错误。

样本含量n要适当大。

统计学科探索的是统计规律，因此，需要n要适当大，太小时样本的代表性不高，有时反映的是极端情况，这样会使结论失真。

对于多元统计知识的学习，要求搞清楚方法的原理，知道哪类问题用哪一种方法，能正确使用SPSS软件进行计算，最后能结合专业知识对计算结果进行分析，作出正确的结论。

对于复杂的计算、证明过程可以先略过，需要时再参考有关书籍。

大型课题要制定一个研究设计，主要包括实验的目的、对象、指标、方法、组织工作等内容。

有时对在实验过程中出现的需要花费很大气力才能解决的问题，在设计时略加改动就能解决或避免出现，因此，不能轻视研究设计。

本书的重点，也是难点，在于理解统计方法的原理、用法、结果的分析、作出正确的结论等方面，需要一定的时间、精力，至于SPSS软件，会用即可，不必占用更多的时间、精力。

第二章SPSS软件基本功能简介

SPSS软件经历了forDos、forWindows6.0、7.0、8.0、9.0、10.0、11.0几个版本（在书稿即将交付印刷时，12.0版本问世，但尚未见到相关的书籍），随着版本的更新，功能愈来愈完善，操作愈来愈简便。

本书选用了11.0版本（部分章节用到了12.0版本），较以前几个版本，它增强了部分模块，提高了运行速度，增加了一些新的统计方法。

SPSS软件对硬件与操作系统的要求不高，目前市场上流行的计算机与操作系统均能满足要求。

第一节启动SPSS

1．启动SPSS

进入SPSS系统，弹出如图2.1.1所示的界面，可根据需要进行选择。

图2.1.1SPSS系统界面

2．SPSS界面

2．1Runthetutorial

浏览操作指导。

2．2Typeindata

显示数据编辑窗口，建立新数据文件。

2．3Runanexistingquery

运行一个已存在的文件。

2．4CreatenewqueryusingdatabaseWizard

使用数据库向导建立一个新的文件。

2．5Openanexistingdatasource

打开一个已存在的数据文件，可选择“.sav”文件。

2．6Openanothertypeoffile

打开一个已存在的其他类型的文件。

2．7Don’tshowthisdialoginthefuture

再运行SPSS系统时，不显示图2.1.1对话框，直接进入数据编辑窗口。

第二节数据编辑

进入SPSS系统后，自动生成一个空数据文件，见图2.2.1。

根据需要，选择“DataView”或“VariableView”项。

图2.2.1数据编辑窗口

1．定义变量

选择“VariableView”项，定义变量。

1．1Name

变量名，不超过8个字符，首字符为字母或汉字。

1．2Type

类型，共有8种类型供选择：

⑴Numeric

标准数值型。

⑵Comma

显示逗号的数值型。

⑶Dot

显示句点的数值型。

⑷Scientificnotation

科学计数型。

⑸Date

日期型。

⑹Dollar

美元型。

⑺Customcurrency

自定义型。

⑻String

字符串型。

1．3Width

变量的长度。

1．4Decimals

小数位数。

1．5Label

变量名标签，起注释作用。

1．6Values

变量值标签，对变量可能取值进一步描述。

1．7Missing

定义缺失值。

1．8Columns

显示变量的长度。

1．9Align

变量的对齐方式：

Left（左对齐）、Right（右对齐）、Center（居中）。

1．10Measure

变量的测量尺度，按测量精度可以分为以下几种变量：

Nominal（定性或名义变量）、Ordinal（定序或有序变量）、Scale（间隔或比率变量）。

2．编辑数据

2．1输入数据

在空数据文件界面上选择“DataView”项。

输入的数据要及时存盘保存，避免丢失。

2．2常规修改

将光标移至错误数据处，改正即可。

2．3利用剪切、复制与粘贴功能修改

使用“Edit”菜单或右键调出“剪切、复制与粘贴”功能，可以移动数据位置、拷贝相同的数据。

3．变量、观测值的插入与删除

3．1插入变量

选择“Data”→“InsertVariable”项，或者将光标移至列变量上，击右键选择“InsertVariable”项。

3．2删除变量

首先要选中被删除的变量，使用“Edit”菜单或右键中的“Cut”或“Clear”，或者用“Delete”键。

3．3插入观测值

选择“Data”→“InsertCase”项，或者将光标移至行序号上，击右键选择“InsertCase”项。

3．4删除观测值

首先要选中被删除的观测值，使用“Edit”菜单或右键中的“Cut”或“Clear”，或者用“Delete”键。

4．恢复删除或修改前的数据

选择“Edit”→“Undo”项，或者按工具栏中的“Undo”按钮。

第三节数据整理

1．数据排序

在数据文件中，根据实际需要，可对一个或多个变量的值重新排序。

选择“Data”→“SrotCases”项，将排序的变量移至“Sortby”框中，在“SortOrder”项中选择“Ascending”（升序）或“Descending”（降序）。

若排序的变量多于一个，则按选择的先后顺序依次排序。

2．分类汇总

在整个数据文件中，有时需要根据某个指定的变量进行分类汇总。

如，按性别、班级等进行分类汇总。

例2.3.1某年级有100名学生，男生30人分3个班，女生20人分2个班，试对其某一门课考试成绩分性别、班级计算平均数。

表2.3.1100名学生考试成绩

性别

班级

考试成绩

男生

82，72，74，86，93，74，79，83，78，81

84，75，87，78，85，74，84，78，79，83

81，77，74，80，70，74，72，90，84，87

84，79，77，69，80，79，81，80，88，78

81，65，73，77，67，76，80，81，75，76

80，75，88，76，79，80，65，89，77，68

女生

75，73，89，72，70，74，77，70，61，91

85，82，94，85，82，86，91，83，87，77

85，83，68，79，82，87，86，81，79，83

75，84，73，96，67，88，63，89，71，94

用x表示考试成绩，xb表示性别，“1”表示男生，“2”表示女生，bj表示班级。

选择“Data”→“Aggregate”项，弹出如图2.3.1所示的对话框。

2．1BreakVariables框

存放分类变量，如xb、bj。

2．2AggregateVariables框

存放汇总变量，如x。

图2.3.1分类汇总对话框

2．3Name&Label…按钮

重新指定结果文件中的变量名及其标签，若不指定，默认的变量名为原变量名后加“_1”。

2．4Function按钮

该对话框选项较多，最常用的有以下几项：

⑴Mean

平均数。

⑵Median

中数。

⑶Sum

和数。

⑷Standarddeviation

标准差。

图2.3.2分类汇总函数对话框

2．3Savenumberofcasesinbreakgroupasvariable

分组数据的个数以“N_BREAK”为变量名存入指定的结果文件中。

2．4Createnewdatafile

将分类汇总结果以“aggr.sav”为文件名保存，按“File…”按钮可以重新指定文件名。

2．5Replaceworkingdatafile

将分类汇总的结果覆盖当前的数据。

2．6Paste按钮

生成SPSS语句。

2．7Reset按钮

重新选择。

本例选中“Savenumberofcasesinbreakgroupasvariable”与“Replaceworkingdatafile”项，计算结果如下。

表2.3.2分类汇总结果

（1）

Xb（性别）

bj（班级）

x_1（平均数）

n_break（个数）

80.45

79.20

表2.3.2分类汇总结果

（2）

Xb（性别）

bj（班级）

x_1（平均数）

n_break（个数）

76.40

80.20

80.65

3．数据变换

例2.3.2有10名学生的两门期中考试成绩，按占总成绩的40%计算总分。

表2.3.310人的两门期中考试成绩

序号（xu）

教育学（x1）

心理学（x2）

总成绩的40%（x）

58.80

62.80

68.40

59.20

64.80

68.40

53.20

64.80

69.20

63.60

用xu表示序号，x1表示教育学，x2表示心理学。

选择“Transform”→“Compute”项，弹出如图2.3.3所示的对话框。

图2.3.3数据变换对话框

3．1TargetVariables框

输入新变量名，如x。

3．2NumericExpression框

输入或选择表达式值，如（x1+x2）*0.4。

计算结果见表2.3.3。

3．3Type&Label按钮

输入新变量后，对该变量命名标签与设置类型。

3．4Functions项

系统预装的函数。

3．5if按钮

打开条件表达式对话框。

⑴Includeallcases

包括所有观测值。

⑵Includeifcasessatisfiescondition

包括符合条件的观测值。

4．数据选择

收集的数据应该尽量多而全，但针对某个实际问题进行计算时，可以根据需要对数据进行选择。

选择“Data”→“SelectCases”项，弹出如图2.3.4所示的对话框。

在左侧变量框中选中被选择的变量。

4．1Select项

⑴Allcases

选择所有数据。

⑵Ifconditionissatisfied

按指定条件选择。

图2.3.4数据选择对话框

⑶Randomsampleofcases

随机抽样。

①Approximately

大概抽样。

②Exactly

精确抽样。

⑷Basedontimeorcaserange

顺序抽样。

⑸Usefiltervariable

用指定的变量过滤，对该变量值为0的数据作删除标记。

4．2UnselectedCasesAre项

⑴Filtered

过滤（不删除）。

⑵Deleted

删除有删除标记的数据。

第四节文件编辑

1．打开SPSS文件

选择“File”→“Open”项。

1．1Data

数据文件（.sav）。

1．2Syntax

源程序文件（.sps）。

1．3Output

结果输出文件（.spo）。

1．4Script

脚本文件（.sbs）。

1．5Other

其他文件。

2．打开其他类型文件

常用的是打开文本文件（.txt）、“Excel”文件（.xls）。

2．1文本文件

选择“File”→“Open”→“Data”项，文件类型选择“Text”，弹出对话框时取默认值。

2．2Excel文件

选择“File”→“Open”→“Data”项，文件类型选择“Excel”，弹出对话框，若文件中第一行是数据，则不选“Readvariablenamesfromthefirstrowofdata”项。

3．文件合并

3．1纵向

首先打开第一个数据文件，然后选择“Data”→“MergrFiles”→“AddCases”项，再打开第二个数据文件，弹出如图2.4.1所示的对话框。

图2.4.1纵向合并文件对话框

⑴UnpairedVariables框

两个待合并的数据文件中，不是公共的变量显示在该框中，如x4、x3。

“[*]”表示是当前数据文件中的变量，“[+]”表示是被合并数据文件中的变量。

⑵VariablesinNewWorkingDataFile框

公共的变量被自动匹配，显示在该框中，如变量xu、x1、x2。

⑶Indicatecasesourceasvariable项

若要求合并后的数据能看出来自哪个数据文件，则选中该项，以“0、1”区分。

3．2横向

首先打开第一个数据文件，然后选择“Data”→“MergrFiles”→“AddVariables”项，再打开第二个数据文件，弹出如图2.4.2所示的对话框。

⑴ExcludedVariables框

显示公共的变量。

⑵NewWorkingDataFile框

显示两个待合并的数据文件中的所有变量。

“[*]”、“[+]”的含义同图2.4.1，。

⑶MatchcasesonkeyVariablesinsortedfiles项

从“ExcludedVariables”框中选择变量作为关键变量移至“KeyVariables”框中。

①Bothfilesprovidecases

合并后的数据由两个待合并的文件数据组成。

②Externalfileiskeyedtable

合并后的数据仅为当前数据文件中的数据。

③WorkingDataFileiskeyedtable

合并后的数据仅为被合并数据文件中的数据。

⑷Indicatecasesourceasvariable项

含义同图2.4.1。

图2.4.2横向合并文件对话框

第五节结果输出

1．打开

选择“File”→“Open”→“Output”项。

2．编辑结果

双击被编辑部分。

3．打印预览

选择“File”→“PrintPreview”项。

4．打印

选择“File”→“Print”项。

5．在Word中编辑

选中被编辑部分，使用“Edit”菜单或击右键选择“Copy”或“CopyObjects”项复制，在Word中粘贴，进行编辑。

第六节SPSS编程

1．建立程序文件

选择“File”→“new”→“Syntax”项，在窗口中输入语句。

运行时选择“Run”→“All”项。

2．打开程序文件

选择“File”→“Open”→“Syntax”项。

例题见例5.3.2。

第三章常用统计量与频数分布表

第一节常用统计量

常用统计量包括平均数、标准差、最小值、最大值等。

1．SPSS软件操作步骤

1．1单组数据

选择“Analyze”→“DescriptiveStatistics”→“Descriptives”项，弹出如图3.1.1所示的对话框。

图3.1.1单组数据计算对话框

⑴Variables框

存放将要计算的变量。

⑵Savestandardizedvaluesasvariables项

将数据标准化成Z分数，并作为新变量保存到数据文件中。

X-X

其中，X、X、S分别表示数据、平均数、标准差。

Z分数不便于分析，一般使用T分数进行分析：

T=50+10Z

若用习惯的百分制，可将“50”改为“70”。

T分数的计算可参考第二章第三节中的“数据变换”内容。

⑶Options按钮

①Mean

平均数。

图3.1.2Options对话框

②Sum

和数。

③Dispersion

描述离散程度的统计量。

Std.deviation：

标准差。

Variance：

方差。

Range：

全距，即最大值与最小值之差。

Minimum：

最小值。

Maximum：

最大值。

S.E.mean：

均值的标准误。

④Distribution

检验正态分布统计量。

Kurtosis：

峰度及其标准误。

若变量服从正态分布，其值为0，大于0时比正态分布峰高，小于0时比正态分布峰低。

Skewness：

偏度及其标准误。

若变量服从正态分布，其值为0，大于0时为正偏或右偏，小于0时为负偏或左偏。

⑤DisplayOrder

输出顺序。

Variablelist：

按“Variable”框中排列的顺序输出。

Alphabetic：

按各变量的字母排列顺序输出。

Ascendingmeans：

按均值的升序顺序输出。

Descendingmeans：

按均值的降序顺序输出。

1．2多组数据

实际问题中，经常遇到多组数据的计算，如分性别、再分班级或年龄等，这需要用计算多组数据的方法计算，下面介绍两种方法。

⑴方法一

选择“Analyze”→“Reports”→“CaseSummaries”项，弹出如图3.1.3所示的对话框。

图3.1.3多组数据计算对话框

①Variables框

存放将要计算的变量。

②GroupingVariables框

存放分组变量。

③Displaycases项

Limitcasestofirst：

输入数值x，只对前x个数据进行计算。

Showonlyvalidcases：

不显示有缺失值的数据。

Showcasenumbers：

在显示数据的同时显示序号。

④Statistics按钮

将“Statistics”框中需要计算的统计量移至“CellStatistics”框。

常用的统计量有：

NumberofCases：

样本含量n。

Mean:

平均数。

Median：

中位数。

将数据按大小顺序排列，居中间位置的数称为中位数。

Std.ErrorofMean：

均数的标准误，其计算公式为：

SX=

√n

其中，SX、S、n分别表示标准误、标准差、样本含量。

图3.1.4Statistics对话框

在抽样调查中，存在着抽样误差，标准误是衡量抽样误差大小的统计量，其值小，说明样本平均数与总体平均数较接近；反之，两者的差异大。

注：

标准差与标准误是不同的两个概念。

前者说明数据与其平均数的偏离程度，后者说明样本平均数与总体平均数的接近程度。

Sum：

和数。

StandardDeviation：

标准差。

展开阅读全文