SPSS数据分析报告.docx
《SPSS数据分析报告.docx》由会员分享,可在线阅读,更多相关《SPSS数据分析报告.docx(17页珍藏版)》请在冰点文库上搜索。
SPSS数据分析报告
SPSS期末报告
关于员工受教育程度对其工资水平的影响统计分析报告
课程名称:
SPSS统计分析方法
姓名:
汤重阳
学号:
所在专业:
人力资源管理
所在班级:
三班
一、数据样本描述
分析数据来自于“微盘——SPSS数据包data02-01”。
本次分析的数据为某公司474名职工状况统计表,其中共包含11个变量,分别是:
id(职工编号),gender(性别),bdate(出生日期),edcu(受教育水平程度),jobcat(职务等级),salbegin(起始工资),salary(现工资),jobtime(本单位工作经历<月>),prevexp(以前工作经历<月>),minority(民族类型),age(年龄)。
通过运用SPSS统计软件,对变量进行统计分析,以了解该公司职工总体状况,并分析职工受教育程度、起始工资、现工资的分布特点及相互间的关系。
二、要解决的问题描述
1数据管理与软件入门部分
1.1分类汇总
以受教育水平程度为分组依据,对职工的起始工资和现工资进行数据汇总。
1.2个案排秩
对受教育水平程度不同的职工起始工资和现工资进行个案排秩。
1.3连续变量变分组变量
将被调查者的年龄分为10组,要求等间距。
2统计描述与统计图表部分
2.1频数分析
利用了某公司474名职工基本状况的统计数据表,在性别、受教育水平程度不同的状况下进行频数分析,从而了解该公司职工的男女职工数量、受教育状况的基本分布。
2.2描述统计分析
以职工受教育水平程度为依据,对职工起始工资进行描述统计分析,得到它们的均值、标准差、偏度峰度等数据,以进一步把握数据的集中趋势和离散趋势。
3假设检验方法部分
3.1分布类型检验
3.1.1正态分布
分析职工的现工资是否服从正态分布。
3.1.2二项分布
抽样数据中职工的性别分布是否平衡。
3.1.3游程检验
该样本中的抽样数据是否随机。
3.2单因素方差分析
把受教育水平和起始工资作为控制变量,现工资为观测变量,通过单因素方差分析方法研究受教育水平和起始工资对现工资的影响进行分析。
3.3卡方检验
职工的起始工资水平和现工资水平与其受教育程度之间是否存在关联性。
3.4相关与线性回归的分析方法
3.4.1相关分析(双变量相关分析&偏相关分析)
对受教育程度和现工资两个变量进行相关性分析。
3.4.2线性回归模型
建立用受教育程度预测现工资水平的回归方程
4高级阶段方法部分
对该样本数据进行信效度检测
三、具体步骤描述
1数据管理与软件入门部分
1.1分类汇总
以受教育水平为分组依据,对职工的起始工资和现工资进行数据汇总。
图1.1分类汇总数据
由图1.1所示,受教育等级以年为单位划分可分为8年、12年、14年等图中所示10个等级。
以等级为8年为例,现工资均值为24399.06美元,起始工资均值为13064.15美元,统计量为53人。
经比较可知,教育年限为12年和15年的职工在公司中占大多数,教育年限为20年和21年的职工在公司中的初始工资平均水平较高,但教育年限为19年的职工现工资平均水平较高。
1.2个案排秩
对受教育水平程度不同的职工起始工资和现工资进行个案排秩。
表1.2-1现工资水平个案排秩统计量
统计资料
Rankofsalarybyeduc
N
有效
遗漏
474
0
平均数
中位数
标准偏差
范围
最小值
最大值
60.43460
46.50000
50.975992
189.000
1.000
190.000
表1.2-2初始工资水平个案排秩统计量
统计资料
Rankofsalbeginbyeduc
N
有效
遗漏
474
0
平均数
中位数
标准偏差
范围
最小值
最大值
60.43460
47.50000
50.865407
189.000
1.000
190.000
1.3连续变量变分组变量
将被调查者的年龄分为5组。
表1.3被调查者年龄分布(已分组)
agec
次数
百分比
有效的百分比
累积百分比
有效
<33
>73
33~43
43~53
53~63
63~73
总计
1
6
267
71
67
62
474
.2
1.3
56.3
15.0
14.1
13.1
100.0
.2
1.3
56.3
15.0
14.1
13.1
100.0
.2
1.5
57.8
72.8
86.9
100.0
根据表1.3所示,该公司474名职员年龄几乎全部在33岁以上、73岁以下,年龄层分布集中在已有工作经验的人当中,其中33~43岁的员工为该公司的主体。
2统计描述与统计图表部分
2.1频数分析
利用了某公司474名职工基本状况的统计数据表,在性别、受教育水平程度不同的状况下进行频数分析,从而了解该公司职工的男女职工数量、受教育状况的基本分布。
表2.1-1职工性别频数统计表
Gender
次数
百分比
有效的百分比
累积百分比
有效
Female
Male
总计
216
258
474
45.6
54.4
100.0
45.6
54.4
100.0
45.6
100.0
由表2.1-1可知,在该公司的474名职工中,有216名女性,258名男性,男女比例分别为45.6%和54.4%,该公司职工男女数量差距不大,男性略多于女性。
下面对该公司员工受教育程度进行频数分析:
表2.1-2职工受教育程度频数统计表
EducationalLevel(years)
次数
百分比
有效的百分比
累积百分比
有效
8
12
14
15
16
17
18
19
53
190
11.2
11.2
11.2
40.1
40.1
51.3
6
1.3
1.3
52.5
116
24.5
24.5
77.0
59
12.4
12.4
89.5
11
2.3
2.3
91.8
9
1.9
1.9
93.7
27
5.7
5.7
99.4
20
2
.4
.4
99.8
21
1
.2
.2
100.0
总计
474
100.0
100.0
图2.1-2职工受教育程度频数分布直方图
表2.1-2及其直方图说明,被调查的474名职工中,受过12年教育的职工是该组频数最高的,为190人,占总人数的40.1%,其次为15年,共有116人,占总人数的24.5%。
且接受过高于20年的教育的人数只有1人,比例很低。
2.2描述统计分析
以职工受教育水平程度为依据,对职工起始工资进行描述统计分析,得到它们的均值、标准差、偏度峰度等数据,以进一步把握数据的集中趋势和离散趋势。
(由于输出结果较长,为了便于解释,仅截取职工受教育水平年限为8年的分析结果)
图2.2-1职工起始工资描述统计表(部分)
图2.2-2职工起始工资描述统计直方图(部分)
图2.2给出的就是以受教育年限为8年时职工起始工资的描述统计,由此得出结论如下:
(1)集中趋势指标:
由图2.2-1可知,职工起始工资均值为$13064.15,5%截尾均数为$13016.35,中位数为$13050.00,三者差异较大,说明数据分布的对称性较差。
(2)离散趋势指标:
起始工资方差为5799170.900,其平方根即标准差为2408.147,样本中极小值为$9750,极大值为美元18750,两者之差为全距(范围)$9000,中间一半样本的全距为四分位间距$4875。
(3)参数估计:
职工起始工资的标准误差为$330.784,相应的总体均数95%可信区间为$12400.38-$13727.92。
(4)分布特征指标:
根据描述统计数据可知,该样本数据中偏度为0.148>0,曲线右偏;峰度为-1.219<3,曲线较为平缓(该结论也可从图2.2-2的直方图及其曲线中看出)。
3假设检验方法部分
3.1分布类型检验
3.1.1正态分布
分析职工的现工资是否服从正态分布。
H0:
职工的现工资服从正态分布
H1:
职工的现工资不服从正态分布
α=0.05
表3.1.1职工现工资正态分布检验结果
单一样本Kolmogorov-Smirnov检定
CurrentSalary
N
474
常态参数a,b
平均数
$34,419.57
标准偏差
$17,075.661
最极端差异
绝对
.208
正
.208
负
-.143
测试统计资料
.208
渐近显着性(双尾)
.000c
a.检定分配是常态的。
b.从资料计算。
c.Lilliefors显着更正。
图3.1.1K-S检验详细模型输出结果
P=0.000
P<α
接受H1,认为职工的现工资统计量不服从正态分布。
3.1.2二项分布
抽样数据中职工的性别分布是否平衡。
H0:
抽样数据中职工性别比例无差异
H1:
抽样数据中职工性别比例有差异
α=0.05
表3.1.2职工性别二项分布检验结果
二项式检定
类别
N
观察比例。
检定比例。
精确显着性(双尾)
gender
群组1
群组2
male
female
258
216
.54
.46
.50
.060
总计
474
1.00
P=0.06
P>α
接受H0,认为抽样数据中职工性别比例无差异。
3.1.3游程检验
该样本中的抽样数据是否随机(检测数据均以均值为分割点)。
(1)性别:
H0:
抽样数据中性别序列为随机序列
H1:
抽样数据中性别序列不为随机序列
α=0.05
表3.1.3-1性别序列游程检验
连检定
gender
测试值a
.46
观察值<检定值
258
观察值>=检定值
216
总箱数
474
连个数
110
Z
-11.692
渐近显着性(双尾)
.000
a.平均数
图3.1.3-1性别序列游程检验详细模型输出
P=0.000
P<α
接受H1,认为样本数据中性别序列不是随机序列。
(2)年龄:
H0:
抽样数据中年龄序列是随机序列
H1:
抽样数据中年龄序列不是随机序列
α=0.05
表3.1.3-2年龄序列游程检验结果
连检定
Years
测试值a
47.14
观察值<检定值
298
观察值>=检定值
175
总箱数
473
连个数
196
Z
-2.519
渐近显着性(双尾)
.012
a.平均数
图3.1.3-2年龄序列游程检验详细模型输出结果
P=0.012
P<α
接收H1,认为年龄序列不是随机序列。
3.2单因素方差分析
把受教育水平和起始工资作为控制变量,现工资为观测变量,通过单因素方差分析方法研究受教育水平和起始工资对现工资的影响进行分析。
(1)起始工资对现工资的影响分析
H0:
认为起始工资对现工资没有显着影响
H1:
认为起始工资对现工资有显着影响
α=0.05
表3.2-1起始工资对现工资的影响分析结果
变异数分析
CurrentSalary
平方和
df
平均值平方
F
显着性
群组之间
89
33.040
.000
在群组内
384
总计
473
P=0.000
P<α
接受H1,认为起始工资对现工资有显着影响。
(2)受教育水平对现工资的影响分析
对受教育水平与现工资之间进行方差齐性检测,其结果如下:
表3.2-2方差齐性检验结果
变异数同质性测试
CurrentSalary
Levene统计资料
df1
df2
显着性
16.169
8
464
.000
P=0.000<0.05,认为该样本方差不齐的要求,因此下面进行的方差分析结论的稳定性较差。
单因素方差检验:
H0:
认为受教育水平对现工资没有显着影响
H1:
认为受教育水平对现工资有显着影响
α=0.05
表3.2-3受教育水平对现工资的影响分析结果
变异数分析
CurrentSalary
平方和
df
平均值平方
F
显着性
群组之间
9
92.779
.000
在群组内
464
总计
473
P=0.000
P<α
接受H1,认为职工受教育水平对现工资有显着影响。
3.3卡方检验
职工的起始工资水平和现工资水平与其受教育程度之间是否存在关联性。
(1)
H0:
起始工资水平与受教育程度之间不存在关联性
H1:
起始工资水平与受教育程度之间存在关联性
α=0.05
表3.3-1起始工资与受教育程度的分析结果
卡方测试
数值
df
渐近显着性(2端)
皮尔森(Pearson)卡方
1969.189a
801
.000
概似比
765.651
801
.811
线性对线性关联
189.643
1
.000
有效观察值个数
474
a.878资料格(97.6%)预期计数小於5。
预期的计数下限为.00。
P=0.000
P<α
接受H1,认为起始工资与受教育程度之间存在关联性。
(2)
H0:
现工资与起始工资之间不存在关联性
H1:
现工资与起始工资之间存在关联性
α=0.05
表3.3-2现工资与起始工资的分析结果
卡方测试
数值
df
渐近显着性(2端)
皮尔森(Pearson)卡方
26391.304a
19580
.000
概似比
2672.323
19580
1.000
线性对线性关联
366.389
1
.000
有效观察值个数
474
a.19890资料格(100.0%)预期计数小於5。
预期的计数下限为.00。
P=O.OOO
P<α
接受H1,认为现工资与起始工资之间存在关联性。
3.4相关与线性回归的分析方法
3.4.1相关分析
(1)双变量相关分析
对受教育程度与现工资之间进行相关性分析。
表3.4.1-1受教育程度与现工资间相关性检测
相关
EducationalLevel(years)
CurrentSalary
EducationalLevel(years)
皮尔森(Pearson)相关
1
.661**
显着性(双尾)
.000
N
474
474
CurrentSalary
皮尔森(Pearson)相关
.661**
1
显着性(双尾)
.000
N
474
474
**.相关性在0.01层上显着(双尾)。
(2)偏相关分析
由于上述检测数据无法说明相关系数中有多少是反映“受教育程度-初始工资水平-现工资水平”这样一种简介的链条影响,也就是说,在控制了初始工资水平之后,受教育程度与现工资水平之间的相关性不确定,因此,下面采用偏相关分析对这三个因素进行分析。
表3.4.1-2受教育程度与现工资水平偏相关分析
相关
控制变数
CurrentSalary
EducationalLevel(years)
BeginningSalary
CurrentSalary
相关
1.000
.281
显着性(双尾)
.
.000
df
0
471
EducationalLevel(years)
相关
.281
1.000
显着性(双尾)
.000
.
df
471
0
3.4.2线性回归模型
建立用受教育程度预测现工资的回归方程。
图3.4.2受教育程度与现工资水平散点图
表3.4.2-1回归方程模型汇总
模型摘要
模型
R
R平方
调整後R平方
标准偏斜度错误
1
.661a
.436
.435
$12,833.540
a.预测值:
(常数),EducationalLevel(years)
2=0.436,说明在对现工资水平的影响因素中,受教育程度起到一定的作用,但是并非决定性作用。
表3.4.2-2回归模型方差分析结果
变异数分析a
模型
平方和
df
平均值平方
F
显着性
1
回归
1
365.381
.000b
残差
472
总计
473
a.应变数:
CurrentSalary
b.预测值:
(常数),EducationalLevel(years)
表3.4.2-3回归方程常数项及回归系数检验结果
系数a
模型
非标准化系数
标准化系数
T
显着性
B
标准错误
Beta
1
(常数)
-18331.178
2821.912
-6.496
.000
EducationalLevel(years)
3909.907
204.547
.661
19.115
.000
a.应变数\:
CurrentSalary
现工资水平=-18331.178+3909.907*受教育程度(年)
由该方程可得出如下信息:
(1)当受教育年限是0年时,在该公司内的现工资水平为$-18331.2。
(2)受教育年限每增加一个单位,在该公司内的现工资水平将增加$3909.9。
4高级阶段方法部分
对该样本数据进行信效度检测。
4.1信度
表5.1-1样本数据信度检测
可靠性统计资料
Cronbach的Alpha
项目个数
.601
3
表4.1-2除去某项后信度检测结果
项目总计统计资料
尺度平均数(如果项目已删除)
尺度变异数(如果项目已删除)
更正後项目总数相关
Cronbach的Alpha(如果项目已删除)
EducationalLevel(years)
51435.65
.669
.802
CurrentSalary
17029.58
.880
.001
BeginningSalary
34433.06
.880
.000
由表4.1-1可得出结论:
该样本数据总体α=0.601,信度良好。
由表4.1-2可得出结论:
当信度检测中除去受教育程度后的α=0.802,大于总体信度0.601,说明该项目的信度对总体信度检测产生负向影响。
4.2效度
表4.2-1效度分析数据描述
Communalities
起始
撷取
EducationalLevel(years)
1.000
.719
EmploymentCategory
1.000
.791
CurrentSalary
1.000
.900
BeginningSalary
1.000
.888
MonthssinceHire
1.000
.999
PreviousExperience(months)
1.000
.944
撷取方法:
主体元件分析。
表4.2-2效度分析结果
说明的变异数总计
元件
起始特徵值
撷取平方和载入
总计
变异的%
累加%
总计
变异的%
累加%
1
3.134
52.225
52.225
3.134
52.225
52.225
2
1.103
18.386
70.611
1.103
18.386
70.611
3
1.004
16.734
87.345
1.004
16.734
87.345
4
.414
6.898
94.243
5
.247
4.112
98.355
6
.099
1.645
100.000
撷取方法:
主体元件分析。
由表4.2-2可以看出,该样本数据中第一项的累计百分比为52.225%,大于50%,因此可以认为该样本数据中的效度较高。