计数数据统计分析的SPSS操作共12页.docx-资源下载

计数数据统计分析的SPSS操作共12页.docx

1、计数数据统计分析的SPSS操作共12页第七节计数数据统计分析的SPSS操作死记硬背是一种传统的教学方式,在我国有悠久的历史。但随着素质教育的开展,死记硬背被作为一种僵化的、阻碍学生能力发展的教学方式,渐渐为人们所摒弃;而另一方面,老师们又为提高学生的语文素养煞费苦心。其实,只要应用得当,“死记硬背”与提高学生素质并不矛盾。相反,它恰是提高学生语文水平的重要前提和基础。对于计数数据的统计分析，SPSS提供了不同的分析和检验方法，从总体上来说，大致可以分为：用于比率差异的非参数二项检验，用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S检验和正态图检验法和用于独立性检验

2、的列联表分析等，这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。家庭是幼儿语言活动的重要环境，为了与家长配合做好幼儿阅读训练工作，孩子一入园就召开家长会，给家长提出早期抓好幼儿阅读的要求。我把幼儿在园里的阅读活动及阅读情况及时传递给家长，要求孩子回家向家长朗诵儿歌，表演故事。我和家长共同配合，一道训练，幼儿的阅读能力提高很快。一、二项分布的非参数检验方法一般说来，“教师”概念之形成经历了十分漫长的历史。杨士勋（唐初学者，四门博士）春秋谷梁传疏曰：“师者教人以不及，故谓师为师资也”。这儿的“师资”，其实就是先秦而后历代对教师的别称之一。韩非子也有云：“今有不才之子

3、师长教之弗为变”其“师长”当然也指教师。这儿的“师资”和“师长”可称为“教师”概念的雏形，但仍说不上是名副其实的“教师”，因为“教师”必须要有明确的传授知识的对象和本身明确的职责。我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同，如某地区出生婴儿的性别比例是否与通常男女各半的结论相符，或在一次抽样中，男女两性所占的比例是否与原先设计好的比例相符。此时即可用二项分布（Binomial）方法进行检验。下面结合具体数据说明Binomial方法在检验比率差异时的应用。1数据所用数据文件为SPSS目录下之GSS93 subset.sav。这里我们将该数据文件另寸为“8-6-1.sav”

4、。该文件中有一变量SEX，是回答者的性别，我们想检验这些回答者的性别是否各占一半。2理论分析从上面数据来看，我们的目的是检验数据中男生和女生所占的比例是否相等，这等价于检验男生所占的比例是否等于0.5，可以用比例检验的方法进行检验。在SPSS中对应于二项分布的检验（Binomial Test）过程。3二项分布检验过程（1）打开该数据文件后点击菜单Analyze，在下拉菜单中选择Nonparametrics Tests子菜单中的Binomial，单击可进入二项检验（Binomial Test）的主菜单。把SEX变量选入到检验变量表列中，其他选项请保持默认（图8-1）。图8-1：二项分布检验主对话

5、框（2）请单击Options按钮，打开对话框如图8-2所示。在此我们想同时在结果中输出一些描述统计量及百分位数，可设置如图所示。设置完成单击Continue按钮回到主对话框。图8-2：二项分布Options窗口（3）在主对话框中点击OK得到程序运行结果。4结果及解释（1）输出数据描述统计量信息 NPar Tests Descriptive Statistics NMeanStd. DeviationMinimumMaximumPercentiles 25th50th (Median)75thRespondents Sex15001.57.49121.002.002.00在描述统计表中，程序提

6、供了样本容量、平均数、标准差、极值及三个百分位数。（2）输出二项分布检验结果 Binomial Test CategoryNObserved Prop.Test Prop.Asymp. Sig. (2-tailed)Respondents SexGroup 1Male641.43.50.000 Group 2Female859.57 Total 15001.00 a Based on Z Approximation. 在Binomial Test表中，所检验变量的有关信息，如男女两性的数目及比例，最后一项是双侧检验的显著性水平值。本例数据检验结果表明：男生组的人数641，在总人数中所占的比例

7、为0.43，假设的总体比例为0.5，双侧检验的显著性小于.05，所以我们可以说男女两性回答者比例相同的假设不能成立，从表中可以看出，女性被试远多于男性被试（女生人数859人，所占比例0.57）。5非对称二项分布的检验也可以用该程序来检验样本数据分布是否来自非对称分布的二项总体。以刚才我们用过的数据为例，假如在调查设计时，调查者想控制被试性别比例（男：女）为4：6，在调查结束后分析数据资料中的性别比例是否与原先所设想的一致。操作如下：打开Binomial对话框，设置如下图8-3所示（指定检验的概率值为0.40）：图8-3：非对称二项分布比率定义用户可以自行检验程序运行的结果。如果用户指定分析的

8、变量中含有三个或更多的变量值，在定义二分值时，需要选择Cut point项，并在后面的方框中填入一个分界点，该分界点必须小于最大变量值，大于最小变量值。小于或等于分界点的值形成第一项，大于分界点的值将形成第二项。此时请注意如果指定检验概率值，它所对应的将是第一项的概率值。请用户自行检验该程序。二、配合度的检验（一）、离散变量配合度检验单样本2检验这种方法可用于离散型变量的配合度检验，分析实际频数与理论频数是否一致。它要求至少有一个变量，变量值为几个固定值，即一个因素多项分类的情况。1数据采用SPSS文件夹中的CARS.SAV数据为例，具体说明这一方法的应用。CARS.SAV数据文件中有一变量

9、为origin，变量值为1、2、3三个整数，分别代表三个地区，这三个整数出现的总次数是405。我们现在欲检验这三个地区所出现的频率是否与预期的270、65、70一致。将该数据文件另存为“8-6-2.sav”。2理论分析从上面数据来看，我们的主要目的是检验三个地区的实际观测频率与理论假设的270、65、70是否存在差异，属于离散变量配合度检验的问题，应用卡方检验。3单样本2检验过程和结果（1）请单击主菜单Analyze / Nonparametric Tests / Chi-Square，可进入单样本2检验的主对话框。从左边变量表列中把指定分析的地区变量选入到右边检验变量表中去，在下面Expec

10、ted values中选择Values一项，并分别把理论次数填入到小方框中，并点击Add按钮完成设置。如果我们欲检验的理论次数各组相等，则可以直接选择All categories eaqual项即可。在Expected range项中保持默认选择项即Get from data。如果我们只想使用一部分按大小顺序排列的数据来进行分析，就可以选择Use specified range，并指定数据的下限与上限。本例设置如下图11-1所示：图11-1（2） Exact按钮可以保持默认选项。Options按钮允许用户指定输出结果是否包括描述性统计量，以及对缺失值的处理方法。因与前面所讲述的用法相同，在此不

11、再赘述。点击Continue返回主对话框。（3）在主对话框中点击OK，得到输出结果。4结果及解释（1）描述统计量表列出了变量名、样本容量、平均数、标准差、最小值、最大值。 Descriptive StatisticsNMeanStd. DeviationMinimumMaximumCountry of Origin4051.57.8013 （2）实际观测数与理论次数对照表列出了每个变量值的实际频数与理论次数及差值。 Country of OriginObserved NExpected NResidualAmerican253270.0-17.0European7365.08.0Japan

12、ese7970.09.0Total405 本例中，美国（American）实际观测次数253人，理论期望次数270人，实际观测次数与理论次数的差异为-17；欧洲（European）实际观测次数73人，理论期望次数65人，实际观测次数与理论次数的差异为8；日本（Japanese）实际观测次数79人，理论期望次数70人，实际观测次数与理论次数的差异为9。（3）2检验表列出了2值，自由度及显著性水平值。在这种基于渐近分布的检验方法中，显著性水平小于0.05 即可认为实际次数与理论次数差异显著，否则差异不显著。 Test StatisticsaCountry of OriginChi-Square3

13、.212df2Asymp. Sig.201 a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 65.0. 在本例中，对应的卡方统计量的值为3.212（2=3.212），对应的自由度为2（df=2），显著性水平值为0.2010.05，故可认为实际次数与理论次数无差异。（二）连续型变量的配合度检验正态分布的检验有时在执行统计分析前，需要确定样本是否来自一个正态分布的总体。在此我们介绍一种非参数检验的方法及相应的图形检验法。 1单样本的K-S检验（1）数据我们仍

14、以SPSS目录下的数据文件GSS93 subset.sav（或盘中文件8-6-1.sav）为例，我们欲检验educ变量值是否来自正态分布的总体。（2）变量受教育程度可以看成是一个连续型的变量，要检验其分布是否为正态分布属于配合度检验的问题，可以用单样本的K-S检验。（3）操作过程单击主菜单Analyze/Nonparametrics Test / 1-Sample K-S，进入主对话框，请设置如下图8-4所示：图8-4: 单样本的柯尔莫哥洛夫斯米诺夫检验主对话框程序所能检验的四种分布：Normal（正态分布）、Uniform（均匀分布）、Poisson（普阿松分布）和Exponedtial（

15、指数分布）。单击Exact可进入选择检验方法的对话框，如下图8-5所示：图8-5：KS检验的Exact选项 Asymptotic only 是一种基于渐近分布的显著性水平的检验指标，通常显著性水平小于0.05则认为显著，适于大样本，如果样本过小或分布不好，该指标的适用性会降低。 Monte Carlo 精确显著性水平的无偏估计，适用于样本过大无法使用渐近方法估计显著性水平的情况，可以不必依赖渐近方法的假设前提。 Exact 精确计算观测结果的概率值，通常小于0.05即被认为显著，表明行变量与列变量之间存在相关。同时允许用户键入每次检验的最长时间限制，可以键入1到9，999，999，999之间

16、的数字，但只要一次检验超过指定时间的30分钟，就应该使用Monte Carlo方法。注：只要有可能，程序会提供显著性水平的精确值，而不是Monte Carlo估计值。单击Options按钮可以进入对话框。选择是否输出描述统计量和百分位数，以及以缺失值的处理，由于与以前所用过的程序相差无几，所以在此不赘述。在主对话框点击OK得到程序执行结果。（4）结果及解释描述统计量信息 Descriptive Statistics N Mean Std. Deviation Minimum Maximum Percentiles 25th50th (Median)75thHighest Year of S

17、chool Completed149613.043.0702012.0012.0015.75描述统计量表列指定检验变量的标签、样本容量、平均数、标准差、最大值、最小值及三个百分位数。单样本的K-S检验结果 One-Sample Kolmogorov-Smirnov Test Highest Year of School CompletedN 1496Normal ParametersMean13.04 Std. Deviation3.07Most Extreme DifferencesAbsolute.163 Positive.134 Negative-.163Kolmogorov-Smir

18、nov Z 6.317Asymp. Sig. (2-tailed) .000 a Test distribution is Normal. b Calculated from data.上表中输出了指定检验变量的正态参数，包括平均数与标准差，极端差的最大绝对值、正值及负值，K-S Z值，双侧检验的显著性水平。由于渐近方法所检验的显著性水平小于0.05，所以变量educ的值并非来自一个正态分布的总体。2检验正态分布的图形（1）Q-Q正态检验图为了更形象地说明这一种结果，我们还将介绍一种图形检验方法。仍以K-S检验所用数据文件和分析变量为例。Q-Q正态检验图的操作过程如下：单击主菜单Graphs/

19、Q-Q ，请保持对话框如下图8-6所示的设置（即把欲检验的变量选入到指定变量表列中去，在Test Distribution选项中选择Normal即正态分布检验，其他设置保持默认）：图8-6：Q-Q图定义窗口单击完成后输出两个统计图如下所示。图8-7为正态分布Q-Q检验图，横坐标为实际观测值按从小到大的顺序排列，纵坐标为正态分布下的期望值。如果实际观测值取自正态分布的总体，那么图中所示的落点应该分布在趋势线的附近，并且应该表现出一定的集中趋势，即平均数附近应该聚集较多的落点，越靠近两个极端落点越少。现在图中落点的分布尽管呈现出线性状态，但由于没有表现出集中趋势，所以可以判断它并非正态分布或接近

20、正态分布。图8-7：正态分布Q-Q检验图图8-8为无趋势正态检验图图8-8为无趋势正态检验图，它以实际观测值为横坐标，以实际观测值与期望值的差为纵坐标。在符合正态分布的情况下，图中的落点应该分布在中央横线的附近，甚至完全落到这条横线上，而且也应表现出集中在平均数周围的趋势。现在图中所示的落点分布离散性较大，不符合正态分布标准，所以我们可以说该样本属非正态分布。从这个图中，我们还可以发现极端值的存在，例如图中离中央线最远的几个落点，都落在下方，表明样本数据中存在极端小的观测值，这时，需要检查数据录入是否有误。如果变量分布明显地呈现非正态，在进行一些要求正态分布前提下的分析以前，应当考虑对数据

21、进行必要的变换。（2）P-P正态检验图单击主菜单Graphs/P-P，进入主对话框。设置与Q-Q程序相同，它的输出图形也与Q-Q极相似，唯一不同之处在于图形的横纵坐标都变成了累加百分比，横坐标为实际观测值的累加百分比，纵坐标为假定正态分布下有累加百分比。是否接近正态分布的判断标准与Q-Q输出图相同。三独立性检验列联表分析列联表分析可以为我们提供每类的实际观测值、理论值、所占百分比、及差异检验结果。 1.数据仍以SPSS文件夹中的数据文件GSS93 subset.sav（或盘中文件“”8-6-1.sav）为例，在此数据中，有两个变量为income4（家庭年收入）与degree（学历）。这两个

22、变量都是按人为标准划分的定性变量（用户可以双击变量名，并在Labels按钮中看到变量值及其标签说明）。现在我们想知道这两个变量之间是否存在关联，也就是说学历是否在年收入的不同分类上存在差异，反之亦然。2.理论分析如果要研究的两个变量都具有两项或更多的分类值，如体育项目的划分、人种的划分，或只是研究者按一定的标准分为不同的类别，如优、良、中、差，这种定性数据（或计数数据）之间关系（是指一个变量的不同分类在另一变量分类上是否存在差异，或者说两个变量是否相互关联）的研究通常使用列联表分析。在分析过程中由于主要根据2 分布进行，所以又常称其为2 检验。3.操作过程（1）单击主菜单Analyze /

23、 Descriptive Statistics / Crosstabs可进入列联表分析的主对话框。从左边变量表列中把指定分析的两个变量degree与income4分别选到到右边Row与Column框中，如图8-9所示：图8-9：Crosstabs主对话窗口（2）为了检验两个变量是否关联，我们需要对其进行检验。这一步可以通过Statistics按钮进行。单击该按扭可进入其设置对话框。一般我们都需要输出2 值及其检验结果，同时，在Nominal组中，我们还发现可以选择列联相关系数C，即Contingency coefficient，这是检验RC表品质相关常用的一个指标。完成设置如下图8-10所示：

24、图8-10：Crosstabs统计量输出选择窗口（3）SPSS在列联表时，允许用户自己控制表中的输出内容。该项设置可以单击主菜单中Cells按钮来进行。打开它的对话框如图8-11所示，可以看到共有三组可选项，下面具体说明：Counts 次数 Observed 实际观测频数 Expected 理论次数Percentages 百分比 Row 横行次数百分比 Column 纵列次数百分比 Total 总共Resduals残差 Unstandardized 残差，实际次数与理论次数之差。 Standardized 标准化残差，残差除以其标准误，又称Pearson残差，其均值为0，准差为1。 Adj.

25、 Standardized 调整标准化残差图8-11：Crosstabs单元格输出选择窗口点击Continue，返回主对话框。（4）在主对话框中点击OK，得到程序运行结果。4结果及解释（1）文件中观测量的概括描述列出了有效观测量、缺失值及全部观测量的个数和百分比。 Case Processing SummaryCasesValid Missing Total NPercentNPercentNPercentINCOME4 Total Family Income * DEGREE RS Highest Degree149699.7%4.3%1500100.0% 上表显示，总的观测为1500个

26、，有效样本1496个，占99。7%，缺失值4个，占0。3%。（2）RC表表中列出了两个变量每项分类，由用户指定输出的内容，如实际次数与理论次数。INCOME4 Total Family Income * DEGREE RS Highest Degree Crosstabulation DEGREE RS Highest Degree Total0 Less than HS1 High school2 Junior college3 Bachelor4 GraduateINCOME4 Total Family Income 1.00 24,999 or lessCount19631525399

27、584 Expected Count108.9304.535.191.344.1584.02.00 25,000 to 39,999Count28175215818300 Expected Count55.9156.418.046.922.7300.03.00 40,000 to 59,999Count16121235218230 Expected Count42.9119.913.836.017.4230.04.00 60,000 or moreCount39169218568382 Expected Count71.2199.223.059.828.9382.0Total Count279

28、780902341131496 Expected Count279.0780.090.0234.0113.01496.0（3）2 检验表列出了三种2 值及其显著性水平，若显著性水平小于临界值如0.05 ，则表明两变量互相关联，但不反映两变量的关联强度及方向。在表的下方还附有单元格的理论次数小于5的个数及百分比，以及单元格的最小理论次数。已有研究者建议当最小理论次数小于1或超过20%的单元格的理论次数小于5的时候不应选择该项，也有研究者建议所有单元格的理论次数都应大于或等于5。为了达到这样的要求，在条件不具备的时候应该考虑对分类项目进行合并处理。 Chi-Square TestsValuedf

29、Asymp. Sig. (2-sided)Pearson Chi-Square264.29912.000Likelihood Ratio266.63812.000Linear-by-Linear Association194.1751.000N of Valid Cases1496a 0 cells (.0%) have expected count less than 5. The minimum expected count is 13.84.本例中数据检验结果表明：3个统计量的值检验结果都达到了显著水平，说明检验的两个变量之间存在显著的关联。（4）两变量的相关系数表列出了名义变量间的品质相关系数及显著性水平。 Symmetric Measures ValueApprox. Sig.Nominal by NominalContingency Coefficient.387.000N of Valid Cases 1496 a Not assuming the null hypothesis. b Using the asymptotic standard err

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？