我国各地区按行业分城镇单位就业人员平均工资的统计分析报告Word文档格式.doc
《我国各地区按行业分城镇单位就业人员平均工资的统计分析报告Word文档格式.doc》由会员分享,可在线阅读,更多相关《我国各地区按行业分城镇单位就业人员平均工资的统计分析报告Word文档格式.doc(13页珍藏版)》请在冰点文库上搜索。
符号
指标
x1
农、林、牧、渔业
x11
房地产业
x2
采矿业
x12
租赁和商务服务业
x3
制造业
x13
科学研究、技术服务和地质勘查业
x4
电力、燃气及水的生产和供应业
x14
水利、环境和公共设施管理业
x5
建筑业
x15
居民服务和其他服务业
x6
交通运输、仓储和邮政业
x16
教育
x7
信息传输、计算机服务和软件业
x17
卫生、社会保障和社会福利业
x8
批发和零售业
x18
文化、体育和娱乐业
x9
住宿和餐饮业
x19
公共管理和社会组织
x10
金融业
平均工资:
指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。
它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。
其计算公式如下:
平均工资=报告期实际支付的全部职工工资总额/报告期全部职工平均人数
工资水平:
指一定区域和一定时间内劳动者平均收入的高低程度。
三、聚类分析
本文采用系统聚类法,其原理为:
开始时,每个对象为一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,直到所有对象归为一类。
并类的过程由一张谱系聚类图描述。
本文对数据分别采用系统聚类中的类平均法、中间距离法、可变类平均法、离差平方和法(Ward法)进行聚类分析,通过比对谱系聚类图,发现Ward法的聚类效果最好,最能体现不同地区的平均工资水平的差异。
下面将对Ward聚类法进行详细分析。
输出3.1Ward聚类法并类过程
如输出3.1:
NCL>
4时,并类过程中RSQ(R^2统计量)的减少是逐渐的;
NCL=4时,RSQ=0.774;
NCL=3时,RSQ=0.729,下降较多。
由此通过RSQ统计量的变化分析可得出分为四个类较为合适。
SPRSQ(半偏R^2统计量)中最大和次大分别为NCL=1、2、3、4,说明根据半偏R^2准则分为两个类、三个类、四个类、无五个类都是较适合的。
PSF(伪F统计量)中最大和次大分别为NCL=2、3、4,根据伪F统计量分为两个类、三个类、四个类是较适合的。
PST2(伪T^2统计量)最大和次大分别为NCL=1、2、3、5,根据伪T^2统计量准则,认为分为两个类、三个类、四个类、六个类较为适合。
综上所述,分为四类最为合适。
输出3.2Ward聚类法谱系聚类图
由输出3.2:
根据Ward聚类法可以将31个省、市、自治区分为四类,具体归类见表3.1。
表3.1分类表
类别
省、市、自治区
第一类
北京、上海、天津
第二类
江苏、广东、西藏、浙江
第三类
河北、黑龙江、山西、安徽、河南、甘肃、宁夏、吉林、贵州、云南、江西、湖南、广西
第四类
内蒙古、山东、青海、辽宁、重庆、福建、湖北、四川、陕西、海南、新疆
从分类结果可以看出,属于第一类、第二类的地区较少,很显然的是第一类、第二类的人均平均工资水平是较高的,这说明我国大部分地区的平均工资水平是较低的。
第一、二类中北京、上海、天津、江苏、广东、浙江是我国发展较为迅速的城市,其对应的工资水平也相对较高,这个结果是显然意见的。
但是,这几个城市要面临一个问题就是工作人员需求量与求职者的人数供小于求的不协调关系,相比之下西藏由于其地理位置的特殊,对工作人员的需求量还是十分大的。
第三、四类,工资水平虽然普遍不高,但是行业发展还是有很大的前景,所以下面要进一步进行主成分及因子分析。
四、主成分分析
本文分析共采用了19个行业指标,较多的指标个数使得观测的数据在一定程度上反映的信息有所重叠,增加了分析的复杂度;
同时较难直观反映各地区人均平均工资水平。
因此,这里应用了主成分分析的降维思想,将原来多指标的问题化为少数几个综合指标的问题,并且这几个综合指标又能够尽可能多地反映原来变量的信息,彼此之间又不相关。
下面对这组数据进行主成分分析。
输出4.1特征值的相关矩阵
由输出4.1:
当选取4个主成分时,累计贡献率(Cumulative)已达到87.67%,此时损失的信息量不超过15%,因此选取3个主成分是较为适合的。
输出4.2部分相关阵的特征值和特征向量
由输出4.2:
由于数据太多,又因为经过前面(见输出4.1)的分析,可知选取3个主成分足够。
因此这里只给出前面7个主成分的相关阵的特征值和特征向量。
通过相关阵的特征值和特征向量,可以得到主成分函数,例如:
表4.1指标分类结果
主成分
影响指标
Z1
农、林、牧、渔业,电力、燃气及水的生产和供应业,建筑业,交通运输、仓储和邮政业,信息传输、计算机服务和软件业,批发和零售业,金融业,房地产业,科学研究、技术服务和地质勘查业,水利、环境和公共设施管理业,教育,卫生、社会保障和社会福利业,文化、体育和娱乐业,公共管理和社会组织
Z2
采矿业,居民服务和其他服务业
Z3
制造业,住宿和餐饮业,租赁和商务服务业
输出4.3
由输出4.3:
根据Z1、Z2、Z3三个主成分,可以得到个地区工资水平受影响的指标分类情况如表4.2:
表4.2
地区
福建、西藏、江苏、广东、浙江、天津、北京、上海
山西、吉林、甘肃、云南、江西、贵州、黑龙江、河南、广西、安徽、海南、陕西、宁夏、新疆、
河北、湖南、黑龙江、湖北、四川、辽宁、内蒙古、山东、青海、重庆、
输出4.3第二主成分得分对第一主成分得分的散布图
可以看出31个地区可以分为三类(以第一主成分得分分值为2和6为分界点),天津、北京、上海为一类,广东、江苏、浙江、西藏为一类,其余为一类。
得到结果与聚类分析得到结果基本一致。
五、因子分析
因子分析是主成分分析的推广和发展,同样是运用降维的思想。
主要研究关阵或协方差阵的内部依赖关系,将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系。
前面的Ward法聚类分析及主成分分析虽然将我国各地区按行业分城镇单位就业人员平均工资水平分为三类到四类,但仍然存在一定的缺陷。
通过因子分析,希望找出几个真正影响各区城镇单位就业人员平均工资水平的公共因子。
下面是因子分析的过程。
输出5.1
由输出5.1:
前三个公共因子的累计贡献率为87.67%,即前三个公共因子反应原始变量信息量已经占到总信息量的87.67%。
输出5.2因子载荷矩阵
输出5.3转换后因子载荷矩阵
输出5.4最终公因子方差估计
由输出5.3:
经过最优斜交转换法旋转变换的因子载荷矩阵以及每个公告因子解释的方差可知,x1、x4、x5、x6、x7、x11、x13、x14、x16、x17、x18、x19解释了Factor1;
x2、x3、x8、x10、x12解释了Factor2;
x9、x15解释了Factor3。
这里例举三个因子模型:
表5.1
公共因子
Factor1
农、林、牧、渔业,电力、燃气及水的生产和供应业,建筑业,交通运输、仓储和邮政业,信息传输、计算机服务和软件业,房地产业,科学研究、技术服务和地质勘查业,水利、环境和公共设施管理业,教育,卫生、社会保障和社会福利业,文化、体育和娱乐业,公共管理和社会组织
Factor2
采矿业,制造业,批发和零售业,金融业,租赁和商务服务业
Factor3
住宿和餐饮业,居民服务和其他服务业
输出5.5因子得分
由输出5.5:
可得因子得分函数,如Factor1(F1函数,对于标准化数据):
输出5.6Factor2对Factor1的散点图
由输出5.6:
表5.2分类表
北京、上海、天津、浙江
江苏、广东、西藏
河北、黑龙江、山西、安徽、河南、甘肃、宁夏、吉林、贵州、云南、江西、湖南、广西、内蒙古、山东、青海、辽宁、重庆、福建、湖北、四川、陕西、海南、新疆
由表5.1、表5.2:
因子分析的两张分类表与主成分分析基本一致。
六、综合分析
表6.1聚类分析结果
表6.2因子分析结果
31个省、市、自治区
19个行业
由表6.1、表6.2:
可知聚类分析的分类结果与因子分析的分类结果基本一致,只不过,因子分析将聚类分析中第三类、第四类合并为一类。
表6.2前两类都属于工资水平较高的地区,中可以看出,北京、上海、天津、浙江各行业发展较为平衡,大部分行业的影响力都是具备的。
而江苏、广东、西藏的行业发展偏重性较大,其采矿业,制造业,批发和零售业,金融业,租赁和商务服务业的行业影响力较大,而大部分的影响力较小。
表6.2中第三类中地区的行业工资水平受住宿和餐饮业,居民服务和其他服务业的影响较大,而受其他大部分行业的影响较小。
针对第二类、第三类,可以调整其交通运输、仓储和邮政业,水利、环境和公共设施管理业,教育,卫生、社会保障和社会福利业,文化、体育和娱乐业,公共管理和社会组织等行业的平均工资,以吸引当地该行业的发展。