第四章 基本统计分析Word文档下载推荐.docx
《第四章 基本统计分析Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《第四章 基本统计分析Word文档下载推荐.docx(18页珍藏版)》请在冰点文库上搜索。
频率
(2)选择几个待分析的变量到变量框.(3)图表选项,选择所需要的图形
•频数分析中的其他分析
•计算分位数:
适用于定距数据
–数据按升序排序后,找到若干个分位点上的变量值
–计算四分位数:
25%(QL)、50%(中位数)、75%(QU)
•分位数的应用:
在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度
•例:
(QL=50,QU=80)和(QL=70,QU=75)的比较
与频数分析相关的图形
←以制作条形图为例
绘制简单条图(单式条图)
绘制复式条图绘制堆积条图(分段条图)
定义统计图中数据的表达类型:
同一变量若干条记录的分组汇总条图反映了不同变量的汇总条图反映了个体观察值
←第一种模式:
用于变量在各组下的频数对比
←第二种模式:
用于多个变量基本描述统计量的对比
←交互作图:
以制作条形图为例
计算描述统计量
精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度。
←基本方法:
计算基本描述统计量
←描述集中趋势的统计量
均值:
表示某变量所有变量值集中趋势或平均水平的统计量。
Ý
适用于定距数据。
特点:
利用了全部数据,易受极端值的影响。
←描述离散程度的统计量
标准差:
表示某变量的所有变量值离散程度的统计量。
SPSS中计算的是样本标准差
极差:
最大值—最小值
←描述对称程度的统计量
偏度(skewness):
描述某变量分布形态的偏斜程度和方向的统计量.
偏度为0表示对称;
大于0表示正偏差大(右偏)
小于0表示负偏差大(左偏)
←描述陡峭程度的统计量
峰度(kurtosis):
描述某变量所有变量值分布形态陡缓程度的统计量。
峭度为0表示与标准正态分布峭度相同。
大于0表示比标准正态分布陡,尖峰。
小于0表示比标准正态分布缓,平峰。
•其他统计量
–均值标准误差(meansofS.E)
•中心极限定理认为:
样本均值~N(u,σ2/n)
•反映样本均值与总体真值间的平均离散程度
•样本数越大,样本均值的离散程度越小,对真值的估计越准确
描述
(2)选择将参加计算的数值型变量名到变量框
←其他功能
数据标准化处理
新变量的均值为0,标准差为1;
小于0表示在平均水平下,大于0反之.
正态分布的数据标准化后呈标准正态分布
Ü
3σ准则:
(68.2%,95.4%,99.7%)
将变量作标准化后,结果存入名为“Z+原变量名”的新变量中.
描述连续变量分布的图形
←箱线图:
以四分位差的1.5倍为标准剔除极端值
←直方图和金字塔图
←Q-Q图和P-P图:
累计分布函数(CDF)和概率密度函数(PDF)函数的应用
交叉分组下的频数分析
了解不同变量在不同水平下的数据分布
学习成绩与性别有关联吗?
(两变量)
职业、性别、爱逛商店有关联吗?
(三变量)
←分析的主要步骤
产生交叉列联表
分析列联表中变量间的关系
列联表
←列联表中的元素:
地区
职称
收入
高(人)
中(人)
低(人)
高工
工程师
助工
技术员
合计
产生交叉列联表
分析->
交叉表
(2)选择一个变量作为行变量到行框.
(3)选择一个变量作为列变量到列框.
(4)可选一个或多个变量作为控制变量到层框.
控制变量的层次设置:
同层为水平数加;
不同层为水平数积.
(5)是否显示复式条形图
←进一步计算
单元格选项:
选择在频数分析表中输出各种百分比.
行百分比;
列百分比;
总百分比
←例:
住房满意程度与购房计划
列联表中行列变量间的关系
通过列联表分析,检验行列变量之间是否独立
←方法:
卡方检验(分类变量相关性的检验)
年龄与工资收入交叉列联表
低
中
高
青
400
500
老
600
低0
中0
高500
中06000
老40000
卡方检验
•卡方检验基本步骤
(1)H0:
行列变量独立
χ2=
∑(fo
-f)2
e
fe
(2)构造卡方统计量:
从(r-1)*(c-1)个自由度的卡方分布
•
优
良
及格
总数
男
10
5
3
23
女
8
12
4
1
25
18
17
9
48
37.5
35.4
18.8
8.3
100
期望分布反映的是H0成立情况下的分布特征
(3)计算卡方的观测值,得到概率P值
(4)比较显著性水平和概率P值。
小于等于则拒绝H0,否则不能拒绝
不同行业的人职业选择标准是否存在差异?
–制造业服务业物质报酬10545
稳定性4035
2乘2的列联表进行yates连续性校正:
←卡方检验的要求:
一般要求列联表中期望频数小于5的格子数不超过20%,否则会夸大卡方值,容易得出拒绝结论,可以合并单元格。
卡方值会受样本数的影响
11
22
21
←行列变量相关性的其他测度指标ϕ=
=AA-AA
←phi系数:
适用于2×
2列联表
←行列变量独立时(期望频数):
有:
ϕ=0
R1R2C1C2
A11=A12,A21=A22C1C2C1C2
←行列变量完全相关时:
A12=A21=0
有:
ϕ=1
A11A12R1
A21A22R2C1C2
←越接近于1,相关性越强。
越接近0,相关性越弱
←行列变量相关性的其他测度指标
←列联C系数(contingencycoefficient):
←[0,1);
取值受到行列数的影响
C=
←V系数:
[0,1]
V=
←值越大表示行列变量的相关性越大
多选项分析
←多选项分析是针对多选项问题的
←SPSS多选项问题的处理思路:
←将一个问题定义成几个变量。
分别用几个变量描述问题的几个可能被选择的答案
←具体策略:
采用不同的编码方式
←多选项二分法(multipledichotomizemethod)
←将每个答案作为一个变量,每个变量只有两个取值(0
或1)
←多选项分类法(multiplecategorymethod)
←预先指定多选项问题被选择的最多答案数
←每个答案建立一个变量,取值为多选项问题的备选答案
←多选项分析的基本思路
定义多选项变量集
多选项频数分析
多选项交叉分组下的频数分析
←定义多选项变量集
目的:
将已分解的变量定义为一个集合,便于进行多选项分析
菜单选项:
多重响应->
定义变量集
从原变量中选取被分解的变量(数值型)到集合中的变量框
指定被分解的变量是按多选项二分法分解还是按多选项分类法分解的
为变量集命名。
系统自动在名字前加字符$.
←多选项频数分析
频率
←多选项交叉分析下的频数分析
交叉表
←P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。
通过P-P图可以检验数据是否符合指定的分布。
当数据符合指定分布时,P-P图中各点近似呈一条直线。
如果P-P图中各点不呈直线,但有一定规律,可以对变量数据进行转换,使转换后的数据更接近指定分布。
←Q-Q图是一种散点图,对应于正态分布的Q-Q
图,就是由标准正态分布的分位数为纵坐标
,样本值为横坐标的散点图.要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.用QQ图还可获得样本偏度和峰度的粗略信息
←自然对数转换:
选择此项,对当前变量的数据取自然对数,即
将原有变量转换成以自然数e为底的对数变量。
←标准值:
选择此项,将当前变量的数据转换为标准值,即转换后变量数据的均值为0,方差为1。
←差分:
选择此项,对当前变量的数据进行差分转换,即利用变量中连续数据之间的差值来转换数据。
选择此项以后,后面的文本框变为可用,在其中输入一个正整数,以确定转换的差分度,默认值为1。
←季节性差分:
用于确定指明计算时间序列的季节差分。
只有在对当前变量的数据序列定义了周期(通过主菜单中的【数据】
(Data)菜单中的【定义日期】
(DefineDates)选项定义)
以后才可用,如果当前周期为0,将不能计算季节差分。
选择此项,在后面的文本框中输入正整数,然后根据该正整数所确定的范围来计算该范围内数据的差值,并用该差值来转换原数据。