用spss作基本统计分析优质PPT.ppt
《用spss作基本统计分析优质PPT.ppt》由会员分享,可在线阅读,更多相关《用spss作基本统计分析优质PPT.ppt(162页珍藏版)》请在冰点文库上搜索。
列形式输出报告,第5章SPSS基本统计分析,SPSS统计分析功能概述SPSS数值分析过程基本统计分析概述5.1案例说明5.2计算基本描述统计量5.3变量的频数统计5.4交叉分组下的频数分析5.5多选项分析,案例说明,1999年全国普通高等学校人文社会科学活动人员情况,居民储蓄调查数据,第5章SPSS基本统计分析,SPSS统计分析功能概述SPSS数值分析过程基本统计分析概述5.1案例说明5.2计算基本描述统计量5.3变量的频数统计5.4交叉分组下的频数分析5.5多选项分析,基本描述统计量,集中趋势分析:
均值:
一组数据的简单算术平均数或加权算术平均数。
适合于正态分布或对成分布资料;
中位数:
将数据排序后位于正中间的数值。
适合于所有分布类型的数据;
众数:
出现频率最高的数。
离散趋势分析极差:
数据最大值减去最小值,最简单的离散程度测度值标准差、方差:
最常用的离散程度测侧度值,一般适合于正态分布资料最小值、最大值标准误:
样本平均数的标准差偏度、峰度测量偏度系数:
Skewness峰度系数:
Kurtosis,计算基本描述统计量的基本操作,步骤:
1.菜单:
AnalyzeDescriptiveStatisticsDescriptive2.将若干频数分析变量选择到Variables框中,例:
对案例1分析99年人员在各学科上的平均投入情况及差异情况,分组计算描述统计量,数据拆分:
数据拆分与数据排序很相似,但也有一个重要的不同点,即数据拆分不仅是按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后所进行的分组统计分析提供便利。
DataSplitFile2.选择拆分变量到GroupsBasedon框中3.选择结果的输出方式4.选择是否需要对拆分变量进行排序,例:
对不同职称的职工,分析工资收入情况。
第5章SPSS基本统计分析,SPSS统计分析功能概述SPSS数值分析过程基本统计分析概述5.1案例说明5.2计算基本描述统计量5.3变量的频数统计5.4交叉分组下的频数分析5.5多选项分析,变量的频数统计(一维),利用频数分布表可以方便地对数据按组进行归类整理,形成各变量的不同水平(分组)的频数分布表何图形,以便对各变量的数据特征何观测量分布状况有一个概括的认识。
例如,在问卷数据分析中,通常应首先对本次调查的被调查者的状况,如被访者的总人数、年龄特点、职业特点、性别特征等进行分析和总结,通过这些分析,能够在一定程度上反映样本是否具有总体代表性,并以此证明以后相关问题分析的代表性和可信性。
这些可以通过频数分析来实现。
频数分析的基本操作,步骤:
AnalyzeDescriptiveStatisticsFrequencies2.将若干频数分析变量选择到Variables框中3.单击Statistics,选择其他基本描述统计量;
单击Charts,选择绘制统计图形;
单击Format,对频数分布表的格式进行调整,应用举例,利用居民储蓄调查数据进行频数分析,达到两个分析目标:
1、分析储户的户口和职业的基本情况。
2、分析储户一次存(取)款金额的分布,并对城镇储户和农村储户进行比较。
储户户口和职业基本情况的分析,该分析的特点是:
涉及的两个变量均是名义水准的变量可通过基本频数分析实现职业变量的取值数目较多,为使频数分布表更一目了然,应对内容的输出顺序进行调整。
储户一次存(取)款金额的分布分析,该分析的特点是:
涉及的变量是定距型变量需要分别对城镇和农村户口的储户进行分析利用频数分析的扩展功能进行分析,分析思路:
由于存(取)款金额是定距型变量,直接采用频数分布不利于对其分布形态的把握,因此考虑对数据分组后再编制频数分布表。
进行数据拆分,分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。
储户一次存(取)款金额的分布分析,分析过程:
数据分组。
将存(取)款金额重新分成五组。
五组的区间分别为:
少于500元、5002000元、20003500元、35005000元、5000元以上。
进行频数分析并绘制带正态曲线的直方图。
利用频数分析计算所有样本的存(取)款金额的四分位数,然后,按照户口类型对数据进行拆分(Splitfile)并重新计算分位数,分别得到城镇户口和农村户口存(取)款金额的四分位数。
第5章SPSS基本统计分析,SPSS统计分析功能概述SPSS数值分析过程基本统计分析概述5.1案例说明5.2计算基本描述统计量5.3变量的频数统计5.4交叉分组下的频数分析5.5多选项分析,交叉分组下的频数分析,目的和基本任务通过频数分析能够掌握单个变量的数据分布情况。
实际分析中,不仅要了解单变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的联合分布特征,进而分析变量之间的相互影响和关系。
交叉分组下的频数分析,目的和基本任务例如,对居民储蓄问题的分析,通过频数分析能够了解储户的基本情况以及他们对所调查问题的总体看法。
如果进一步需要掌握不同特征的储户群(不同户口、职业)对调查问题的态度,并希望分析储户特征和所调查问题之间是否存在一定的关联性时,频数分布就显得力不从心,因为它涉及两个或两个以上的变量。
对此,通常利用交叉分组下的频数分析来完成。
交叉分组下的频数分析,目的和基本任务两大基本任务:
第一,根据收集到的样本数据,产生二维或多维交叉列联表;
第二,在交叉列联表的基础之上,对两两变量间是否存在一定的相关性进行分析。
交叉分组下的频数分析,交叉列联表的主要内容编制交叉列连表是交叉分组下频数分析的第一个任务。
交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。
交叉分组下的频数分析,这是一张涉及两变量的二维交叉列联表,反映了不同户口的储户对储蓄是否合算的不同看法。
表中的户口变量称为行变量,什么合算称为列变量。
行标题和列标题分别是两个变量的变量值(或分组值)。
表格中间是观测频数和各种百分比。
交叉分组下的频数分析的基本操作,步骤:
AnalyzeDescriptiveStatisticsCrosstabs2.分别选定行变量和列变量。
3.选择Displayclusteredbarcharts,指定绘制各变量交叉分组下频数分布柱型图。
Suppresstables表示不输出列联表,在仅分析行列变量间关系时可选择。
4.单击Cells,指定列联表单元格中的输出内容,各选项的含义见P86。
5.单击Format指定列联表各单元的输出排列顺序。
6.单击Statistics指定用哪种方法分析行变量和列变量之间的关系。
交叉分组下的频数分析的应用举例,利用居民储蓄数据进行分析,实现以下分析目标:
分析城镇和农村储户对“未来两年内收入状况的变化趋势”是否持相同的态度;
交叉分组下的频数分析的应用举例,如果列联表如P86所示,两个变量的关系就一目了然,但绝大多数情况下,观测频数是分散在列联表的各个单元格中的,因此就不大容易直接发现行列变量之间的关系和它们关系的强弱程度。
为此需要借助一些方法进行分析。
通常采用的是卡方()检验和相关性检验等。
交叉列联表的卡方检验,卡方检验属于假设检验的范畴,有四个步骤:
1、建立零假设()列联表分析中卡方检验的零假设为行变量与列变量独立。
2、选择和计算检验统计量列联表分析卡方检验的检验统计量是Pearson卡方统计量,其数学定义为:
交叉列联表的卡方检验,3、确定显著性水平和临界值4、结论和决策,例:
对城镇和农村储户对未来收入看法的一致性进行卡方检验,其中,r为列联表的行数,c为列联表的列数;
为观察频数,为期望频数。
期望频数的分布反映的是行列变量互不相干下的分布。
交叉分组下的频数分析,练习,利用居民储蓄数据进行分析要求:
形成城镇和农村储户对储蓄是否合算的列联表;
在列联表的基础上进行卡方检验。
第5章SPSS基本统计分析,SPSS统计分析功能概述SPSS数值分析过程基本统计分析概述5.1案例说明5.2计算基本描述统计量5.3变量的频数统计5.4交叉分组下的频数分析5.5多选项分析,多选项分析,什么是多选项问题,SPSS中的多选项分析是针对问卷调查中的多选题的,多选项问题在问卷调查中普遍存在,它是根据实际调查需要,要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。
如何处理多选项问题,第一,将多选项问题分解;
第二,利用前面讲到的频数分析或交叉分组下的频数分析等方法进行分析。
多选项问题的分解,用SPSS进行问卷处理时,单选题可以一个问题设为一个变量,变量值为该问题的回答。
对于多选项问题由于答案不止一个,和单选题的处理就不一样了。
解决多选项问题的思路是将问卷中的一道多选题分解成若干问题,对应设置若干SPSS变量,分别存放描述这些问题的几个可能被选择的答案。
这样,对一个多选项问题的分析就可以转化成对多个问题的分析,也就是对多个SPSS变量的分析。
多选项问题的分解方法,多选项二分法,多选项分类法,多选项二分法,是将多选项问题中的每个答案设为一个SPSS变量,每个变量只有0或1两个取值,分别表示选择了该答案和不选择该答案。
例如,高考志愿的调查中,志愿选择有6个答案,
(1)北大;
(2)清华;
(3)人大;
(4)北京理工;
(5)北师大;
(6)北外。
对应设置6个SPSS变量,取值为1或0。
多选项二分法,多选项分类法,多选项分类法中,首先应估计多选项问题最多可能出现的答案个数;
然后,为每个答案设置为一个SPSS变量,变量取值为多选项问题中的可选答案。
例如,高考志愿的调查中,由于问卷要求被调查者选择三个答案,所以可设置三个SPSS变量,分别表示志愿一、志愿二、志愿三,变量取值是16,依次对应于北大;
清华;
人大;
北师大;
北外。
多选项分类法,多选项二分法与多选项分类法各有利弊。
在高考志愿的调查中,采用多选项二分法,对变量V1至V6作频数分析,就能很方便地分析出各个学校的考生报考情况,但是不能体现考生志愿的填报顺序信息;
如果采用多选项分类法分解,对变量V1至V3作频数分析,就能很方便地分析出考生在各个志愿中的报考学校情况,但不便于分析各个学校的考生报考情况。
在选择多选项问题的分解方法时,应考虑到具体问题和具体分析目标,在避免信息丢失的前提下,减少稀疏数据。
对多选项问题分解后,就可以进行频数分析了。
首先应定义多选项变量集,即将多选项问题分解并设置成多个变量后,指定这些变量为一个集合。
只有通过定义多选项变量集,SPSS才能确定应对哪些变量取相同值的个案数进行累加。
定义多选项变量集的基本操作:
1.菜单:
AnalyzeMultipleResponseDefineSets。
2.将进入多选项变量集的变量选择到VariablesinSets中。
3.在VariablesAreCodedAs中指定多选项变量集中的变量是按照哪种方法分解的。
4.为多选项变量集命名。
5.单击Add将定义好的多选项变量集加到MultResponseSets中。
定义多选项变量集完成后,便可进行多选项频数分析了。
AnalyzeMultipleResponseFrequencies。
2.把待分析的变量集选择到TablesFor中。
3.指定是否处理缺失数据。
SPSS规定,只要样本在多选项变量集中的某一个变量上取缺失值,分析时就将该样本剔除。
除多选项频数分析外,SPSS还可对多选项问题进行多选项交叉分组下的频数分析。
AnalyzeMultipleResponseCrosstabs。
2.选择列联表的行变量并定义取值范围,或选多选项变量集为行变量。
3.选择列联表的列变量并定义取值范围,或选多选项变量集为列变量。
4.选择列联表的控制变量并定义取值范围,或选多选项变量集为控制变量。
5.单击Option按钮选择列联表的输出内容和计算方法。
多选项分析的应用举例,利用居民储蓄调查数据进行分析,实现以下两个分析目标:
分析储户的储蓄目的分析不同年龄段储户的储蓄目的,练习,一、利用91年美国社会调查情况数据data07-01进行分析:
1.将最高受教育年限(edu)分为四组:
5岁以下、510岁、1015岁、15岁以上,进行频数分析并绘制带正态曲线的直方图。
2.分析不同地区(region)家庭拥有孩子数量的差异并进行卡方检验差异是否显著。
二、利用调查数据data18-01进行多选项分析:
分析50岁以下的年龄段,晚饭后做什么?
序时平均数的计算方法,计算绝对数时间数列的序时平均数,由时期数列计算,采用简单算术平均法,1994-1998年中国能源生产总量,【例】,由时点数列计算,由连续时点数列计算,间隔相等时,采用简单算术平均法,序时平均数的计算方法,解:
由时点数列计算,由连续时点数列计算,间隔不相等时,采用加权算术平均法,对于应该逐日记录的时点数列,每变动一次才登记一次,序时平均数的计算方法,某企业5月份每日实有人数资料如下:
解:
【例】,由间断时点数列计算,间隔相等时,采用首末折半法,序时平均数的计算方法,间隔不相等时,采用先简单再加权,单位:
万人,计算相对数时间数列的序时平均数,基本公式,a、b均为时期数列时,序时平均数的计算方法,某化工厂某年一季度利润计划完成情况如下:
因为,所以,该厂一季度的计划平均完成程度为:
【例】,a、b均为时点数列时,a为时期数列、b为时点数列时,【例】已知某企业的下列资料:
要求计算:
该企业第二季度各月的劳动生产率;
该企业第二季度的月平均劳动生产率;
该企业第二季度的劳动生产率。
四月份:
五月份:
六月份:
该企业第二季度的劳动生产率:
该企业第二季度的月平均劳动生产率:
平均发展水平,设时间数列中各期发展水平为:
二者的关系:
第一节时间数列编制及分析指标,一、时间数列的编制二、时间数列的水平指标三、时间数列的速度指标,设时间数列中各期发展水平为:
环比发展速度与定基发展速度的关系:
年距发展速度,说明,定基增长速度与环比增长速度之间没有直接的换算关系。
增长1%的绝对值,增长1%的绝对值,2412,6215,27772,27145,24190,13885,2412,3803,7670,10305,3582,-627,102.3,105.93,113.24,123.07,126.49,125.89,102.3,103.55,106.91,108.68,102.78,99.53,2.3,5.93,13.24,23.07,26.49,25.89,2.3,3.55,6.91,8.68,2.78,-0.47,1048.44,1072.56,1110.59,1187.29,1290.34,1321.16,1048.44,1072.56,1110.59,1187.29,1290.34,1321.16,平均发展速度的计算,几何平均法(水平法),即有:
计算公式,几何平均法(水平法),平均发展速度的计算,解:
平均发展速度为:
平均增长速度为:
有关指标的推算:
几何平均法(水平法),推算最末水平yn:
预测达到一定水平所需要的时间n:
计算翻番速度:
几何平均法(水平法),解:
平均发展速度的计算,方程法(累计法),计算公式的推导,由基本要求有,各期推算水平分别为,计算公式的推导,由基本要求有,各期推算水平分别为,(该一元n次方程的正根即为平均发展速度),【例】某公司2000年实现利润15万元,计划今后三年共实现利润60万元,求该公司利润应按多大速度增长才能达到目的。
两种方法的比较:
几何平均法研究的侧重点是最末水平;
方程法研究的侧重点是各年发展水平的累计总和。
平均发展速度的计算,第八章时间数列分析,第一节时间数列的编制及分析指标第二节时间数列的分解分析,第二节时间数列的分解分析,一、时间数列的构成因素和分析模型二、长期趋势的测定三、季节变动的测定,影响时间数列变动的因素可分解为:
不可解释的变动,时间数列的构成因素,时间数列变动分析就是要把时间数列受各类因素的影响状况分别测定出来,搞清研究对象发展变化的原因及其规律,为预测未来和决策提依据。
时间数列的组合模型,
(1)加法模型:
Y=T+S+C+I,
(2)乘法模型:
Y=TSCI,第二节时间数列的分解分析,一、时间数列的构成因素和分析模型二、长期趋势的测定三、季节变动的测定,把握现象随时间演变的趋势和规律;
对事物的未来发展趋势作出预测;
便于更好地分解研究其他因素。
测定长期趋势的基本方法:
时距扩大法,趋势线拟合法,测定长期趋势的意义:
移动平均法,时距扩大法,时距扩大法:
是把原有时间数列中各时期资料加以合并,扩大每段计算所包括的时间,得出较长时距的新动态数列,以消除由于时距较短受偶然因素影响所引起的波动,清楚地显示现象变动的趋势和方向。
注意:
只适用于时期数列;
扩大的时距要保持一致!
例:
课本P300例8-9,移动平均法(Movingaverages)通过平均每一个连续数列值来修匀时间数列的方法,是平滑法(smoothing)的一种。
移动平均法的概念,三项移动平均线,移动平均法,计算各移动平均值,并将其编制成时间数列,一般应选择奇数项进行移动平均;
若原数列呈周期变动,应选择现象的变动周期作为移动的时距长度。
移动平均法,移动平均法的步骤:
确定移动时距,移动平均法,奇数项移动平均:
原数列,移动平均,新数列,移动平均,移动平均,新数列,原数列,移动平均法,偶数项移动平均:
原数列,三项移动平均,五项移动平均,四项移动平均,移动平均对数列具有平滑修匀作用,移动项数越多,平滑修匀作用越强;
由移动平均数组成的趋势值数列,较原数列的项数少,局限:
不能完整地反映原数列的长期趋势,不便于直接根据修匀后的数列进行预测。
移动平均法的特点,趋势线拟合法,是通过数学方法对时间数列配合一条理想的趋势方程,使其与原数列曲线达到最优拟合,直线趋势方程:
其中为时间序号,判断趋势类型,趋势方程的类型,当数据的逐期增长量趋近于一常数时,可以配合直线方程,当数据的逐期增长量大体等量变化时,可以配合二次曲线方程,当数据的环比发展速度趋近于一常数时,可配合指数曲线方程,直线趋势方程:
抛物线趋势方程:
指数曲线趋势方程:
直线趋势的测定,直线趋势方程:
其中a与b如何确定?
达到最小,直线方程中参数a、b的确定:
最小平方法,基本数学要求:
整理得到由两个关于a、b的二元一次方程组成的方程组:
进一步整理,有:
0,1,2,3,4,5,6,7,求解a、b的简捷方法,当t=0时,有,【例】已知我国GDP资料(单位:
亿元)如下,拟合直线趋势方程,并预测1999年的水平。
第二节时间数列的分解分析,一、时间数列的构成因素和分析模型二、长期趋势的测定三、季节变动的测定,季节变动的分析要点,根据季节指数与其平均数(100%)的偏差程度测定季节变动的程度,如果现象没有季节变动,各期的季节指数等于100%,指数越远离其平均数(100%)季节变动程度越大。
月(或季)的指数之和等于1200%(或400%)。
如果分析的是月份数据,则要计算12个指数;
若为季度数据,则要计算4个指数。
计算方法有同期平均法和趋势剔除法。
直接平均法(原理),1、根据原时间序列通过简单平均计算季节指数。
2、假定时间序列没有明显的长期趋势和循环波动。
直接平均法(步骤),
(1)计算同月(或同季)的平均数,
(2)计算全部数据的总月(总季)平均数,(3)计算季节指数(S),j=1,2N;
N=4或12,N=4或12,24.9,18.52,14.26,20.32,19.5,1.2769,0.7313,0.9497,1.0421,趋势剔除法(原理和步骤),适用于具有明显上升或下降长期趋势的时间序列。
先将序列中的趋势予以消除,再计算季节指数。
计算季节指数的步骤
(1)计算移动平均趋势值(T)
(2)从序列中剔出趋势值(Y/T)(3)按前述方法计算季节指数(S),例:
P309,