《数据挖掘与商务智能》小组作业.docx

资源描述

《数据挖掘与商务智能》小组作业.docx

《《数据挖掘与商务智能》小组作业.docx》由会员分享，可在线阅读，更多相关《《数据挖掘与商务智能》小组作业.docx（22页珍藏版）》请在冰点文库上搜索。

《数据挖掘与商务智能》小组作业.docx

《数据挖掘与商务智能》小组作业

作业题目

《数据挖掘与商务智能》小组作业

——决策树算法在人力资源管理中的

应用研究

小组成员

涂艳红沈之夏吴虹桥韩进刘泽银

专业班级

2013级企业管理

学院名称

工商管理学院

指导老师

杨超副教授

提交日期

2014年7月4日

决策树算法在人力资源管理中的应用研究

1数据挖掘技术在人力资源管理中的应用

随着信息技术的迅速发展，特别是数据库技术和计算机网络的广泛应用，企业拥有的数据量急剧增加。

在大量的数据与信息中，蕴藏着企业运营的利弊得失，若能够对这种海量的数据与信息进行快速有效地深入分析和处理，就能从中找出规律和模式，获取所需知识，帮助企业更好地进行决策。

数据挖掘技术和产品在这种市场需求中逐渐发展成熟，并使企业获得极高的投资回报。

图1数据挖掘在人力资源管理中的应用

（1）员工招聘

员工的招聘是具体人力资源管理的开始。

人力资源管理者利用各种方法和手段，如网路招聘、接受推荐、刊登广告、举办人才交流会、到职业介绍所登记等从组织内部和外部吸引优秀人才。

招聘是企业获取人力资本的重要手段，企业要生存并持续发展就必须招聘。

因此，招聘的结果直接关系到企业能否保持优良的员工素质和合理的结构，也影响企业的人员流动和人力资源管理的费用控制。

现实中往往经常存在着这种现象，企业急需优秀员工但招聘者找不到合适的人才，而有能力的求职者又找不到合适的工作。

这些问题主要就是因为二者的许多潜在的联系没有被挖掘出来。

比如说，招聘的企业不了解求职者离职的普遍原因，不了解求职者普遍要求的薪资水平等，这就导致企业在招聘过程中盲目性。

而要解决这类问题，就目前的技术而言，采用数据挖掘技术是一种方便有效的解决方案。

在数据挖掘子系统中，数据挖掘技术所要解决的问题之一就是找出求职者身份、特点与离职的各种原因之间的关系并建立模式，以公司可以通过调整薪资、福利，甚至更换工作环境等手段来留住所需的人才，对新的求职者做出预测，以帮助人力资源部门招聘人员找到正确的招聘对象。

（2）员工绩效考评

对在职员工的管理，不能只局限于记录和管理相关的数据，如员工基本信息，员工考核信息等，更重要的是应该能整理和分析这些数据，并提出有价值的报告。

例如：

通过对员工考评数据的分析，企业可以了解到目前的整体绩效状况；通过对工资结构分布的分析，可以提出成本控制的建议等。

所以我们要求人力资源管理系统不但要对企业整体的人力资源状况做出判断，更重要的是可以向企业高层提出支持性的建议，引入数据挖掘技术，即可达到该目标。

在该系统中运用数据挖掘技术，比如通过对人才年龄的分析，判断公司年龄结构是否合理，应补充哪一年龄层次的人才等；收集和分析人力资源供给与需求方面的信息，预测人力资源供给和需求的发展趋势。

这些统计与分析结果为人力资源部制订人力资源招聘、调配、培训、开发及发展计划等政策和措施提供准确、量化的依据。

（3）员工离职

在市场化的人才就业机制下，人才的流动是一种必然现象，而且我国正处于社会转型期，人才的流动更为频繁。

适度的员工流动率对企业发展有益，但是员工流动过于频繁，对于企业和社会都具有不利影响。

对于企业来说，过高的员工流动率意味着企业人才的流失，以及企业在员工身上所进行的人力资源投资的丧失，包括招聘，培训等费用的空耗，还面临着巨大的重置成本。

特别是核心员工的离职，往往对企业产生非常重要的影响，甚至决定企业的生存与否。

离职员工从不同的方面对企业的生产经营过程产生着各种各样的影响，特别是现在的人员流动经常是以团队方式进行的，一个人的离职可能会产生连锁反应，严重的有可能使企业陷入瘫痪。

企业应充分认识到人才流失对企业经营带来的巨大风险，建立完整的针对人才流失危机管理机制，从而避免优秀人才的流失可能给企业带来的巨大损失。

人力资源管理者通常是通过书面调查和口头询问得到的信息来定性的分析员工离职原因，但是这种分析带有很大的主观性。

通过数据挖掘技术建立起员工分类模型，发现离职员工的主要特征，然后利用这个模型挖掘出在职员工中的潜在的离职者，对于其中的优秀员工，企业应该引起重视，并采取措施留住人才。

诚如上文所述，人力资源的管理的目标是人——员工，他是一个复杂的、易变的对象，传统的分析方法已经不能满足管理者的需要。

数据挖掘技术在近几年刚刚出现，它在挖掘数据中隐含的规律以及解决具体问题方面而言，是其他技术方法所不能比拟的。

现已经在实际领域得到广泛的应用，并且产生了良好效果。

此外，数据挖掘技术的优点是可以集成到具体的人力资源管理系统之中，从而利用已有信息系统存储的数据进行挖掘计算，利用计算机应用程序，把高深复杂的统计技术、挖掘算法封装起来，使人们不用掌握这些技术也能完成同样的功能，从而更专注于自己所要解决的问题。

下面是一些数据挖掘技术在人力资源管理系统中研究和应用的实例。

（1）IBM在管理系统解决方案中，数据挖掘部件使用的是IntelligentMiner。

它提供以下功能:

a.广泛的数据挖掘技术和算法集；b.在数据规模和计算性能方面有非常高的可伸缩性，可在许多IBM和非IBM的平台上运行；c.具有大量能被用来开发用户化数据挖掘应用程序的编程接口；所有的数据挖掘引擎和数据操纵函数能通过共享C++库被访问。

IntelligentMiner支持分类、预测、关联规则产生、聚类、顺序模式侦测和时间序列分析的算法。

大多数算法是由IBM研究所研发出来的，是IBM专有技术，只存在于IntelligentMiner中。

IntelligentMiner是一个客户服务系统，客户机用于控制用户界面和数据可视化函数，而数据挖掘和数据操纵引擎在服务器上IntelligentMiner支持展开文件并提供对DB2的直接访问。

IntelligentMiner支持数据挖掘在人力资源管理系统中的应用。

（2）EnterpriseMiner是SAS公司推出的数据挖掘工具。

它支持关联、聚类、决策树、神经元网络和经典回归技术，它能运行在客户服务模式下。

其对数据的访问是通过标准的SAS数据程序（SAS/ACCESS模块）。

总的来说，它适用于企业在数据挖掘方面的应用和人力资源管理的决策支持应用。

国内目前也有不少的软件公司开发出了自己的人力资源管理系统产品，但他们的产品大部分停留在对员工信息的记录上，对数据挖掘部分比较弱化。

这与我国的数据挖掘技术应用水平有一定的关系。

但随着人力管理管理系统在我国的进一步发展，企业对数据挖掘部分的要求会越来越高，因此加强数据挖掘技术在人力资源管理方面的应用研究，有利于提高我国企业对人力资源管理系统理论的进一步认识和促进我国企业人力资源管理系统应用水平的提高。

2决策树应用

2.1基于ID3算法的决策树应用

决策树技术是用于分类和预测的主要技术，决策树学习是以实例为基础的归纳学习算法。

它着眼于从一组无次序、无规则的事例中推理除决策树表示形式的分类规则。

它采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支，然后进行剪枝，最后在决策树的叶节点得到结论。

所以从根到叶节点就对应着一条合取规则，整棵树就对应着一组析取表达式规则。

基于决策树的分类有很多实现算法。

ID3是较早提出并普遍使用的决策树算法。

Quinlan提出的著名的ID3学习算法是较早的经典算法，它通过选择窗口来形成决策树，是利用信息论中的互信息寻找训练集具有最大信息量的属性字段，建立决策树的一个节点，再根据该属性字段的不同取值建立树的分支；在每个分支子集中重复建立树的下层节点和分支过程。

2.2决策树方法在员工离职分析中的应用

1、员工分类过程中的总体结构

利用决策树对离职员工资源进行分类的目的，是在公司在职员工中挖掘出潜在离职者。

然后，就可以有针对性地对一些潜在离职的重要员工，采取一些措施进行挽留，减少企业由此带来的损失，形成一个稳定的员工团体。

主要的措施分为三类：

一、激励机制留人才；二、建立合理的薪酬结构；提供有竞争力的薪酬水平；三、重视人本管理,给员工的发展提供机会。

员工分类过程的总体结构如图2所示：

图2数据挖掘在人力资源管理中的应用

2、数据准备

（1）数据选取

从数据源中得到的历史数据存在着量大、属性繁多、定义复杂、不完整的特性，分析人员需要从大量的数据中选择适合分析的数据。

不同时间段的员工具有不同的特征，比如，现在员工学历普遍比过去十年前的高，因此不能用十年前的相关数据来建立模型，预测现在员工相关情况。

系统选取数据的过程中，将运用SQL查询语句得到近几年的数据。

（2）数据清理

数据清理也可称为数据清洗。

数据清理是在数据中清除错误和不一致，并解决对象识别问题的过程。

数据清理包括空值处理、噪声处理及不一致数据处理等。

数据不一致性导致数据挖掘结果的信任度降低。

数据清理去除噪声或无关数据，并处理数据中缺失的数据域。

（3）数据归纳

这里采用面向属性的归纳法进行数据归纳。

面向属性的归纳法就是以数据库中关系表为基础，查询收集任务相关数据，形成任务相关基础表；然后在基础表的基础上，对各属性进行分析和泛化，找出与决策规则有关联的属性，构造出分类样本模型。

此时的数据样本模型就是一个有效的、通过压缩或泛化了的数据集合。

这样做的目的是设法减小数据规模，使之只与属性值有关系，而与原始的数据量无关，为更有效地产生决策树提供了极大的方便，公司的员工信息关系数据库的结构示意图如图3所示：

图3员工信息关系数据库结构示意图

A.在职基本信息：

员工编号、姓名、性别、所在部门、现任职务、职称、婚姻、年龄、政治面貌、入党时间、文化程度、身份证号、入职时间。

B.离职员工基本信息：

员工编号、姓名、性别、所在部门、职称、婚姻、年龄、政治面貌、入党时间、文化程度、身份证号、离职时间。

以某公司部分员土信息数据为例，通过SQL查询语句对员工信息关系数据库进行压缩、删除、汇总等操作，得表1所示的相关基础数据表：

表1相关基础数据表

（4）数据转换

ID3算法不能处理数值连续型属性，必须将其进行离散化处理，如属性年龄。

这里采用信息增益法，将连续型数据划分成两个区间，具体步骤如下：

A.对属性年龄进行排序：

（其中重复的值被合并），因为最大值不能作为分裂点，所以只有12个可能的分裂点，如表2所示。

表2排序后的数据表

B.然后用前述的方法计算每个分裂点的信息增益（Gain），选择Gain值最大的作为分裂点，由于给定数据的I（A）相同，根据公式，只需计算信息嫡（information），选择嫡值最小即可。

根据公式，计算得到的信息嫡值表如下表3所示。

表3排序后的数据表

根据表3中E（A）一栏所示结果显示，分裂点为25（<=25与>25）。

归纳后数据集为表4所示。

表4归纳后的数据集

3、决策树的构建

由于篇幅所限，只取数据集中有代表性的十几个数据作为模型创建输入训练集。

表5训练样本

表5给出了公司人力资源部门的一组经过分析和整理后得到的训练集。

该集合中用来描述员工的属性有四个：

职称、性别、学历、年龄。

员工被分为正例和反例两类：

离职员工（P）和非离职员工（N）。

下面用ID3算法，建立决策树，对员工进行分类。

具体计算过程如下：

（1）给定样本的信息嫡的计算：

初始时刻属于P类和N类的实例个数分别为6个和9个，则：

根据决策树中计算信息嫡公式，得到给定样本的信息嫡是：

（2）计算每个属性的信息增益

在这个例子中，第一次分裂存在四种可能，形成如图4所示的四棵树。

叶结点中的数字表示属于“是”和“否”这两个类的实例个数。

对于图4中的第一棵树，其叶结点的不同分类的实例个数可以表示成（3，2），（1，5），（2，2）。

根据公式，这四个属性的信息嫡分别是：

图4第一次分裂后的树

计算每个属性的嫡值：

我们可以看出属性“性别”的信息增益最大，也就是说属性“性别”提供的信息量最大，对于分类帮助最大，所以选择“性别”作为根节点。

（3）建立决策树的根枝与分枝

选择属性“性别”作为根节点，并引出二个分枝，此时，将训练实例集分为二个子集，生成包含二个叶节点的决策树，如图5所示。

图5根结点分类决策树

下面对图5中叶结点进行分类。

表6结点1所包含的数据集

由表6知，初始时刻正例为5，反例为3，所以开始时的墒值为

：

选择“职称”作为分裂属性，到这一步还需要继续分裂，决策树的这个分枝还未生成。

下面对图5中叶结点2进行分类。

表7叶结点2所包含的数据集

选择“职称”作为分裂的属性，将结点2分为三个子集，属于不同的类。

扩展后的决策树见图6所示：

图7拓展后的决策树

继续对结点3、结点4、结点5和结点6应用上文的方法进行分类，直到得到整棵决策树，如图7所示：

图8最终决策树

4、决策树应用结果分析

在分析过程中，利用数据库中相关的数据，通过对员工的职称、性别、学历、年龄等因素的分析，经过数据选取、数据清理、数据归纳、数据转换等过程，运用决策树中的ID3算法建立员工分类模型，提出分类规则，发现离职员工的主要特征。

利用该模型对收集到的现有的在职员工数据进行分析预测，挖掘出其中的潜在的离职员工。

从决策树分类的结果可以看出离职员工的关键属性信息分别为男性、职称为低级、年龄小于25岁、高学历。

针对这些离职员工的关键属性信息，应该制定相应的人力资源管理措施来挽留他们，使他们能继续为公司的发展作贡献。

第一，男性的离职率要明显高于女性。

从公司的现状来看，是因为公司的企业文化没有充分发挥其作用，男性员工非常的想要公司给他们创造互相交流的机会。

最好的方法就是举行各种运动俱乐部，这样既可以增加员工之间的交流与沟通，也可以让员工感受公司的关怀，从而使其凝聚力得到提高。

第二，职称为低级的员工易于离职。

公司在新员工入职的时都会对其有一个职称的评定，随着工作的时间的增加，对其职称也会进行调整。

由于公司在职称调整的时候不是很及时，导致低级职称的员工对自己在公司的职称不满意。

因此，应该进一步规范化职称评定规则，及时、公正的对员工进行职称评定，进而调整薪酬，使优秀员工的能力和其薪酬相匹配。

第三，年轻的员工离职率较高。

新员工对公司的认归属感来自于刚入职时的企业文化培训，公司对新员工的入职培训很多时候是走形式。

今后应该加强新员工的入职培训，使新员工充分了解公司，增强对公司的归属感。

第四，学历较高的员工容易离职。

公司是一家以销售为主的IT企业，传统的思想认为在没有专业技能的时候才去作销售，这样就使高学历的人认为作销售委屈了自己，还有一个原因是高学历的员工认为他们没有得到应有的报酬。

针对这种情况，一方面要利用各种机会使高学历员工明白他们的知识一样的发挥着很好的作用，另一方面调整薪酬适当的满足他们的要求。

以上四个属性是该公司离职员工的关键属性，有的离职员工可能具备其中的一、两个关键属性，有的则可能全都具备。

因此公司在挽留有离职倾向的员工时不能只是片面的针对某一方面，应该从公司的整体上考虑如何消除导致员工离职的关键属性，从而为企业留住优秀的员工。

2.3决策树在人力资源管理中的价值

决策树为人力资源管理决策者提供了找到关键属性的算法依据，其价值在于可以科学精确地做到对现有数据进行评估，根据算法规则对趋势做出预测。

从数据结构上来说，一旦系统得到一条信息完整的数据时，这条数据便会根据系统预设的算法被归类到它应属的类别，这个类别成为类标号属性的属性确定，通过分析由属性描述的数据库元组来构造模型。

这些决策树的算法，或者称之为规则用来为以后的数据样本分类，也为数据库的内容提供更好的了解。

3数据挖掘技术在人力资源中应用的展望

全球化改变了各个领域的管理哲学和管理实践，其中人力资源管理首当其冲。

人力资源管理是现代管理理论的新趋势，传统的人力资源管理受到挑战，对于新时期人力资源管理发展趋势和特点有以下观点：

第一，具有弹性和适应性成为生存的基本条件。

大多数公司运用参与系统从事雇佣，发展适合的管理形态，领导风格和雇佣态度；建立功能团队，超越传统的“任务强制力”、“目标团队”或“质量循环”，认识到初始阶段团队在公司的位置；运用自我评价，参考优秀的企业管理模式，扩大技能，超越狭隘的功能界限，发展管理能力和技术。

第二，组织的限制变得越来越少，雇佣方式成为公司竞争优势的一个来源。

传统的人际关系消失，它使组织成员为一项任务而结合起来变的更复杂；组织的结构变得扁平，中层管理者减少，工作群体和团队变得越来越重要；高质量雇员数量增加，社会越来越需要组织的社会责任和伦理行为。

第三，全球化具有的竞争优势形成知识。

知识管理者看作一种战略能力，只要被运用于实践，鼓励发展、收集知识，使公司设计一个其他竞争者无法模仿的操作程序。

组织学习蓝图的构造在个人竞争中产生力量是人力资源管理的任务，因此组织学习可被理解为集体的现象，把个人学习作为基本出发点。

通过收集经验和通过实验方式学习，产生独特竞争力，通过增加、联合、更新知识产生新的知识并运用于实践，用开放的态度吸取经验，抓住面对失败和错误并从中吸取教训的机会。

第四，人力资源管理集中于激励，提高积极性和创造性，集中于增加人们的活力，充分发挥每个人的才能，从而加强企业竞争力，树立良好的企业形象。

新时期人力资源管理发展趋势和特点越来越要求在组织规模不断扩大的今天，作为管理人员和组织领导者要想做到对组织进行有效的管理和正确的决策就必须借助于数字化工具的帮助。

目前对于人力资源数字化的了解及应用越来越普及，人们对于数字化的人力资源工具能够更好地帮到决策者做相关分析和管理都毫无质疑。

但对于数据挖掘在“人力资源管理”的研究及应用却始终没有“客户关系管理”来得广泛透彻。

但是随着人们对人力资源管理的认识不断加深，对于人力资源管理能够带来不菲价值的理解不断提高，相信在不久的将来，越来越多的研究者将涉及这一领域，越来越成熟的人力资源的数据挖掘工具将应运而生，将为人力资源领域带来更光明的前景！

【参考文献】

[1]阮金晶.数据挖掘的人力资源统计数据异常检测方法研究及应用[D].浙江工业大学,2013.

[2]宋丽丽.数据挖掘技术在高校人力资源规模的应用研究[D].沈阳理工大学,2013.

[3]朱丹.基于决策树ID3算法的科研院所职工绩效评估系统的设计与实现[D]电子科技大学,2013.

[4]谭国臣,王晓涛,娜嘉,刘树华,于建永.高校人力资源管理系统中数据构建与挖掘价值[J].人力资源管理,2011,07:

162-163.

[5]漆昊晟,欧阳群.数据挖掘技术在企业人力资源管理中的应用[J].企业经济,2012,01:

78-80.

[6]陈晓璠,邓砚谷,郑玉莉.数据挖掘在企业人力资源绩效管理中的应用[J].上海管理科学,2009,06:

50-52.

[7]王庆,郑汉超.数据挖掘在人力资源管理中的应用及展望[J].企业活力,2010,04:

68-71.

[8]潘浩,陈中良.基于决策树技术的企业人力资源管理系统研究[J].天中学刊,2010,02:

39-41.

[9]张俊旺.数据挖掘在人力资源信息化管理中的应用[J].电子制作,2012,11:

209-210.

[10]刘长柱.数据挖掘技术在人力资源管理中的应用[D].东北大学,2007.

[11]李小燕.关于对挖掘人力资源,做好人力资源管理的思考[A].中国科学技术协会.提高全民科学素质、建设创新型国家——2006中国科协年会论文集[C].中国科学技术协会,2006:

[12]孙华,李义杰,李清江.决策树在人力资源管理中的应用研究[J].农业装备与车辆工程,2007,04:

56-58.

[13]于飞.数据挖掘技术在人才选拔中的应用——基于高科技企业的研究[J].工业技术经济,2008,01:

105-111.

[14]朱近贤.数据挖掘技术在人力资源管理中的应用研究[J].计算机与信息技术,2008,10:

7-9.

[15]孙华.决策树算法在人力资源管理中的应用研究[D].辽宁工程技术大学,2008.

[16]朱近贤.数据挖掘技术在人力资源管理中的应用研究[D].上海交通大学,2008.

[17]卜亚杰.决策树分类算法的研究及应用[D].华北电力大学（河北）,2008.

[18]姚靠华,蒋艳辉.基于决策树的财务预警[J].系统工程,2005,10:

102-106.

[19]JohnDurkin,蔡竞峰,蔡自兴.决策树技术及其当前研究方向[J].控制工程,2005,01:

15-18.

[20]盛昭瀚,柳炳祥.客户流失危机分析的决策树方法[J].管理科学学报,2005,02:

20-25.

展开阅读全文