基于数据挖掘的学生就业管理系统.docx
《基于数据挖掘的学生就业管理系统.docx》由会员分享,可在线阅读,更多相关《基于数据挖掘的学生就业管理系统.docx(33页珍藏版)》请在冰点文库上搜索。
![基于数据挖掘的学生就业管理系统.docx](https://file1.bingdoc.com/fileroot1/2023-6/22/9d3443f9-80b3-4c7d-a3ff-ec0de1402faf/9d3443f9-80b3-4c7d-a3ff-ec0de1402faf1.gif)
基于数据挖掘的学生就业管理系统
考试成绩
任课教师
科技大学研究生考试试卷
考试科目智能信息处理与数据挖掘
专业计算机应用技术
学号1606035
考生丰
考生类别学术硕士
注意事项
1.试题随试卷交回;
2.试卷评阅后,一周送交研究生秘书处保存;
3.考生类别为学术硕士、专业学位硕士、在职人员攻读硕士学位。
摘要
随着计算机的普及应用和升级发展,数据挖掘作为一个新兴的、多学科交叉的应用领域,正在各行各业的以信息分析为基础的决策支持系统活动中扮演着越来越重要的角色。
数据仓库挖掘作为数据挖掘的一个重要研究分支,其主要目的是用于发现数据集中项之间的相关联系,即关联规则。
数据挖掘是从大型数据库中提取知识信息的主要手段,由于形式简单、易于理解,因此,数据仓库挖掘已广泛应用各个领域,用来检验行业长期形成的知识模式,或发现隐藏的新规律。
随着我国教育改革的不断深入,高等教育得到了长足的发展。
当前,在各类学校中,学校的数据库建设已较完善,数据库中存储着大量的教育教学信息。
据调查,这些隐藏着大量教育信息的历史数据没有被很好地利用,没有好好挖掘隐藏在这些数据中的教育规律。
致使在一些学校专业区分性不大,专业课设置没有明显的区分。
毕业的学生却很难找到适合本专业的工作。
究其原因,除了课程设置不能跟上,学生的实际能力不能被培养到实际用人单位所要求的标准等原因外,还存在着很多隐藏在背后的因。
最终造成了学生在接受完四、五年教育后,良好素质没有被开发,能力不够。
而具有实际工作能力的学生被专业或某些未被发现的因素所限制,本文研究从大量的学校教育信息中挖掘出正确的、可靠的、可信的关联规则。
本文利用数据仓库技术、OLAP技术、数据挖掘技术分析学校毕业生就业数据。
通过对已毕业学生的专业、生源地、成绩及就业时间等信息进行联机分析与数据挖掘,从不同角度、不同层次寻找出学生就业与否的在原因,发现学生对学校专业设置的需求,从而达到为专业设置和教育教学提供决策支持。
Abstract
Asputerbeingwildlyusedandupgraded,thedatamininggrowingintoanewrisingandmulti-disciplinaryapplicationfieldareplayingamoreandmoreimportantroleintheinformationanalysisofdecisionsupportsystem.
Associationminingisanimportantresearchbranchofthedatamining,anditaimsatdiscoveringtherelationshipamongitemsinadataset.Thedataminingisthemainmeasureofderivingknowledgefromlargedatabases.Becauseofitssimpleformanditcanbeeasilyunderstood,associationmininghasbeensuccessfullyappliedtomanyfields.Itnotonlycantesttheknowledgemodesexitingintheindustry,butalsocanfindsomenewruleshidden.
AseducationinnovationinChinabeingenhanced,highereducationinbeensignificantlydeveloped.Atpresent,inallkindsofschools,theschooldatabasehasbeenwellconstructedandhasstoredenormouseducationandteachinginformation.Accordingtosomeresearches,thehistoricaldatawithalargenumberofeducationalinformationofhistoricaldatahasnotbeenwellusedordigtheeducationruleshiddeninthedatabaseout.Consequently,themajorsofanumberofhighereducationschoolshavelittledistinction,andthecoursescheduleshavenocleardistinction.Graduatesarehardtofindsuitablejobaccordingwiththeireducationexperience.Toanalyzethereasons,besidescurrentcurriculumcannotbekeptupwiththeactualemployer’srequirement,therearealsomanyhiddenreasons,whichresultinlacknessofstudents’abilityafterthreetofive-yeareducation.However,somepetentstudentshavebeenconstrainedbymajorsorsomeundiscoveredfactors.Thepurposeofthisarticleistodigoutcorrect,reliableandcrediblecorrelativerulesfromalargeamountofeducationinformation.
Basedondatawarehouse,OLAPtechnologyanddatamining,thisthesisanalyzeshighereducationschoolgraduates’employmentdata.Throughstudent’smajor,student’slocation,educationexperienceandemployedtime,on-lineanalysisanddatamininghasbeencarriedouttofindoutthatinternalreasonofemploymentstatusofthestudentfromdifferentaspectsanddifferentlevelsanddiscovermajorarrangementrequirementsfromthestudents,whichcouldofferadecision-makingsupportforcoursedesignandeducationmethod.
摘要
Abstract
第一章引言
1.1研究的背景、目的和意义
1.2数据挖掘的含义
1.3国外发展和研究现状
第二章学生就业管理系统数据仓库的设计与实现
2.1确定指导主题
2.2就业数据仓库建模
第三章数据挖掘在学生就业中的应用
3.1数据挖掘应用流程
3.2数据挖掘应用流程
第四章总结
附录-代码
一引言
1.1研究的背景、目的和意义
世界在进步,人类在发展,各项技术都在不断的发展和完善,当然数据库技术也不会例外,储存在数据库中的数据量也在不断的增大,当然这也是得益于互联网的出现,互联网的出现使人类的信息交流不再受到空间的限制,让所有人可以通过互联网十分方便的交换各种数据信息。
在互联网不断的发展过程中,人们拿到的数据也像滚雪球一样,越来越大,大量数据的背后隐藏着许多重要的信息,人们通过对其深入的分析,希望能从中得到那些十分重要或有价值的数据信息。
数据库系统并不能自动的找出十分重要或有价值的数据信息,这就孕育出来数据挖掘。
从这个词的意思不难理解,人们拥有着大量的数据信息,要从大量的数据信息中找出隐藏在其中的十分重要或有价值的数据信息,就需要不断的进行掘。
在现在数据挖掘已经被广泛的运用在各个领域,并且都取得的令人满意的效果。
在我们国家教育改革的不断发展深入的过程中,高等教育也在大踏步的前进,高等院校如雨后春笋般的在增长。
随着教育信息化的推进,几乎所有学校的办公室、教室都配有电脑,而且绝大多数的学校都建设有自己的校园网络,学校的所有数据信息都能在网络上查询到。
这些数据信息里面我们将其分为三大类:
第一类是学校的行政管理信息:
如重要会议通知、教学简报、各种活动报道等;第二类是教学信息:
如课程安排、任课教师情况、教学质量检查情况等;第三类是学生信息:
如学生的基本资料、每学期成绩、表彰获奖情况等。
在这三类信息中学生信息本该最为重要,但却得不到重视,只是在学期末寄发成绩单时才被使用。
通过数据挖掘技术所发现的专业、家庭经济状况、地域分布与就业的关系,合理的引导学生选择专业,最终提高学生的就业率。
从而对高等教育及其教学改革具有一定的指导性意义。
1.2数据挖掘的含义
数据挖掘(datamining)又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,简称KDD),比较公认的定义是由U.M.Fayyad等人提出的:
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。
数据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。
1.3国外发展和研究现状
相应地,数据挖掘在国外商场、金融(信用评估,欺诈监测)、电讯、科学、保险等领域早已有不同层次的应用。
数据挖掘在商业领域有丰富应用:
客户关系管理、欺诈检测、供应链分析、医疗分析、文件分析(文本挖掘)、决策支持系统和财务分析。
而在政府方面的应用主要有财务管理、人力资源管理、欺诈侦测、分析社会现象、打击恐怖主义、处理人们对政府数据的访问。
国数据挖掘还是一个很新的研究课题,并处于一个初步应用的层次,但它所固有的为企业创造巨大经济效益的潜力,已使其很快有了许多成功的应用,具有代表性的应用领域有市场预测、投资、制造业、金融、通讯等,数据挖掘目前还在国家资助(975,863,基金)的科研项目中有着重要的应用价值。
我国数据挖掘研究与开发的总体水平相当于数据库技术在20世纪70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使数据挖掘这项技术的应用得以普遍推广。
预计在未来一段时间数据挖掘的研究焦点可能会集中到以下几个方面:
(1)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言;
(2)寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;(3)研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DM服务器,并且与数据库服务器配合,实现WebMining;
(4)加强对各种非结构化数据的开采(DataMiningforAudio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;
(5)处理的数据将会涉及到更多的数据类型;
(6)交互式发现;
(7)知识的维护更新。
1.4数据挖掘的基本技术
(1)聚类/分割。
聚类或分割是一种将数据分组方法类(或集群)是有着相似的模式或特征。
各专题组从数据确定,而不是依赖预定义类分类。
零售商可以利用聚类发现类似情况在他们的客户群存在,使他们能够创建和理解它们销售和市场的不同群体。
(2)关联分析。
寻找大量数据中项集之间的关联或相关联系。
例如通过对交易数据的分析,我们可能得出‘30%-40%购买纸尿布的男性顾客会同时购买啤酒’这样的关联规则。
关联规则广泛用于购物篮或事务数据分析。
(3)序列模式。
序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。
序列模式分析描述的问题是:
在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。
(4)人工神经网络和遗传算法。
人工神经网络在数据挖掘中也扮演着非常重要的角色。
人工神经网络可通过示例学习,形成描述复杂非线性系统的非线性函数,这实际上是得到了客观规律的定量描人工述。
目前在数据挖掘中,最常使用的两种神经网络是BP网络和RBF网络。
二、学生就业管理系统数据仓库的设计与实现
建立学生就业数据仓库首先要根据学生就业数据仓库这个主题进行建模,主题明确后,才能根据主题确定需要的表;建模完成后紧接着就是对就业数据仓库进行设计,包括设计多维数据分析的事实表和维表;完成设计后就要加载数据,在这个过程中要设计数据加载程序,包含将集成的细节数据转化成不同综合层次的数据综合功能和将数据清洗、转化和集成的装载功能;最后进行数据质量评估。
2.1确定指导主题
确定指导主题实际就是划分围,根据围选取数据明确分析目的。
就业指导分析关注的四个指导主题是成绩、专业、生源结构、就业时间的影响分析。
1.成绩影响分析。
高等院校学生不仅在学校课程中学习文化知识,还要学习更多的专业技能,提高学生的整体素质,为毕业后能尽快参加工作、走向社会做好准备。
因此,学生在学校的表现和智力成果由德育成绩和智育成绩组成,包括平时成绩和参加学校组织的技能比赛的获奖情况。
在面临就业时,德育和智育成绩高低对学生的就业就会产生一定的影响,这是值得分析的一个问题。
通过考察智育、德育等的因素,可以找出社会需要什么样的职业技能人才。
2.专业影响分析。
雇主需要什么样的专业技能人才,在一定程度成为了高等院校开设专业的一种向导。
可以通过各专业的学生就业的形势的分析可进一步指导学校对专业的设置。
3.生源结构影响分析。
由于是全国围的录取,所以学生会来自全国各地,每个人的家庭经济条件都不一样。
这些来自不同区域、不同类型的学生对他们就业区域、就业岗位、待遇都有不同的要求。
所以对生源结构的整体分析,可以为毕业生实习、就业提供有意义的指导。
4.就业时间影响分析。
在大环境的变动,同时影响到学生的就业率和就业质量。
所以对就业时间与专业的分析,很容易获得哪些专业易于就业提出指导性建议。
2.2就业数据仓库建模
数据仓库就是将从不同数据源中提取出来的数据全部存储到数据仓库中,数据存储的量很大,而且对数据查询的要求也相当高。
一般的的数据建模都是从概念建模、逻辑建模、物理建模这样的自上而下的建模方式。
概念建模主要是以信息打包的方式;逻辑建模的方式多采用星型建模方法和雪花建模方法;物理建模主要是以3NF和星型建模方式。
2.2.1概念建模
概念模型是一个概念性的工具。
服务于目标设计系统、收集信息等,在与用户沟通的过程中来定义数据仓库需要访问的信息,包括当前、将来和历史相关的数据信息。
可以在需求分析阶段,确定操作数据、数据源以及一些附加数据,设计容易理解的数据模型,有效地完成查询和数据之间的映射。
在本项目中使用的信息包图是概念模型中最常用的一种。
超立方体也是一种常用的概念模型,但当维度超过三维后其直观性非常的差,大大增加了数据的采集和表示困难,出于这种原因Hammergren于1997年提出了信息包图可以在平面上展开超立方体,它让超立方体的表示可视化了。
信息包图方法要先明确分析的主题,接着围绕这个主题装载指标、维度、粒度等信息。
指标是分析主题的评估指标。
而维度是用户访问评估信息的途径。
粒度是维度息的详细程度。
维度表和事实表设计将会直接影响到数据仓库的响应时间和分析结果,所以说数据仓库构建的关键问题是维度表和事实表的设计。
维是最能反映用户的分析或者观察对象的角度,而且它必须体现出数据仓库中数据粒度、数据的层次。
要按既定的分析主题组织事实表和维度表,下图建立的就业指导数据仓库概念模型就是用信息包图方法。
信息包图
2.2.2逻辑建模
逻辑建模是数据仓库实施中的重要组成部分,从逻辑建模中能直观看出项目的需求。
逻辑模型就是要将明确的主题和维的信息映射到数据仓库中的具体的表格里面。
星型模型和雪花模型都是常用星型模型。
1、星型模型的建模理论是由中心一点向外扩散,中心对象是“事实表”,外面若干个对象是“维表”,星型模型就是由“事实表”和若干个“维表”连接而成的。
事实表的特点主要是包含的数字数据能够进行汇总并提供有关各项动作的历史数据。
作为外键的相关维度表的主键被包含在每个事实表中的一个或多个部分组成的索引中。
星型模型能支持以决策者的想法和定义数据实体,满足面向主题数据仓库设计的需求,而信息包图能提供完备的概念基础给星形图的设计。
星形图包括维度、指标和类别三个逻辑实体。
指标实体是位于星形图中心的实体,给用户活动提供定量数据,是基本实体和查询活动的中心。
每一个指标实体表示一系列相关事实,完成一项指定的功能,代表一个现实事务的综合水平,只与每一个相关维度的一个点对应。
维度实体位于星形图的星角上,其作用是限制用户的查询结果,达到过滤数据,减小访问围的目的。
2、雪花模型可以看做是增加了粒度层次的描述的星型模型,其中某些维是规化的,可把数据进一步分解到附加的表中。
可以用多表来描述一个层次结构复杂的维来达到用户需要的效果。
根据数据仓库应用中的易使用与高性能的思想,结合本课题的设计需求,星型模型结构相对简单能利用位图索引提高查询速度,而雪花模型结构较为复杂,更适合用于处理维层级复杂的模型,本项目选用星型模型作为就业数据仓库逻辑建模的模型,如下图所示:
就业数据仓库的星型模型
2.2.3物理建模
逻辑模型在数据仓库中的实现就是数据仓库的物理模型,包括物理存取方式、数据存放位置、数据存储结构以及存储分配等。
逻辑模型实现物理模型的基础,在进行物理模型设计实现时,需要考虑因素有:
I/O存取时间、空间利用率和维护代价。
从数据仓库上讲,实际存储的模式包括关系模型和多维模型两种。
多维模型按照多维来存储数据这样查询速度会非常快。
因为多维存储需要大量的存储空间,所以在大容量的情况下性能会下降。
并且索引在多维存储框架中不好建立。
因此多维存储结构一般应用在数据量较小的,保存聚集数据的数据集市和OLAP服务器中。
在数据仓库中的大量数据要进行分析,要将有用的数据从这些数据中查找出来,物理模型中需要提供迅捷的查询速度是整个设计的关键所在,物理建模中索引技术、减少表连接操作、预聚集技术和分割技术都可以提高数据仓库的查询速度。
1、索引技术是在数据库中以牺牲空间和索引维护时间为代价来加快表息检索速度,因多维数据库本身就是为了检索而建立的一种存储模型,所以多维数据库中索引技术并不是很重要,使用位图索引技术是数据仓库用来减少存储空间的一种技术。
2、减少表连接操作可以减少系统资源的暂用量,从而达到加快数据仓库的查询速度。
因为数据仓库中维表和事实表的连接是可能存在的,所以要尽可能的减少表的连接操作。
3、预聚集技术是通过预先聚集一些数据来加快分析的速度。
预聚集技术在对需要聚集数据量大,聚集频率高时采用可以达到加快数据分析速率的效果。
4、分割技术就是去除掉不使用的数据,从而来提高数据分析速率。
数据仓库量的数据并一定所有都能使用上,有一部分数据使用不上的数据,在进行分析时需要将这些使用不到的数据进行分割,这样如果只分析那些有用的数据就可以加快分析的速度。
根据本项目需要分析的主题,数据仓库的物理表结构如下:
就业信息事事实表、成绩档次维表、专业维表、地区维表、就业时间维表、就业状况维表、单位性质维表,如下图所示:
就业信息事实表
成绩档次维表
专业维表
地区维表
就业时间维表
就业状况维表
单位性质维表
在完成数据仓库的物理建模后,下一步就是建立数据仓库数据库,并建立事实表和维度表,并在所有表中的主要字段上建立索引。
使用MSSQLServer2008关系数据库管理系统作为数据仓库的物理存储,根据数据仓库物理建模,利用关系数据库来构建数据仓库。
要最终实现数据仓库除了完成就业数据仓库的设计,还要先进行数据的清洗、抽取、转换、加载。
三数据挖掘在学生就业中的应用
3.1数据挖掘应用流程
学生就业管理系统挖掘工具通过节点的连接以工作流的方式来实现数据挖掘过程。
它能支持跨行业数据挖掘标准流程(CRISP-DM),本文的数据挖掘流程挖掘对象为就业数据仓库,实施步骤流程如下图所示:
数据挖掘实施步骤流程图
数据挖掘流程依据过程模型CRISP-DM可理解成这些步骤,首先进行问题理解和提出,然后开始数据准备,数据准备完成后就进行建立模型,从而生成规则,最后做出评价和解释。
1、问题理解和提出:
分析、理解希望能从中发现学生就业与时间、成绩、生源地、专业它们之间的联系。
2、数据准备:
针对不同的分析目的,直接利用就业数据仓库,通过学生就业管理系统挖掘工具前端处理工具,如增加记录选项(选择、抽样、汇总等等)、字段选项(类型、过滤等等)节点来抽取数据仓库中的一定数量的子集,建立数
据挖掘库。
3、建立模型:
根据数据挖掘的目标和数据的特征,选择合适的模型,选用学生就业管理系统挖掘工具中的以改进后的Apriori算法的多维关联规则模型、来进行挖掘分析。
4、评价和解释:
对数据挖掘的结果进行评价,并能结合就业工作实际对结果进行解释。
3.2基于关联规则的挖掘
3.2.1搜索单维频繁谓词
就业信息事务表有较多维属性,如要找到这些属性所构成的频繁谓词集,先要获得各维属性所全部包含的频繁谓词。
利用SQL语言直接对数据库进行操作的方式。
开始利用SQL中的Distinct语句对经过数据预处理的就业信息事务表进行操作,返回表里每个属性维包含的所有谓词。
假设一个字段有重复的值,但是每个值只被选取一次,这时可使用关键字DISTINCT来做。
SELECTDISDINCT<字段名称>FROM就业信息事务表
其中的字段名称是随选择的列不同而变化的量,不同的字段名称会返回不同
的值。
接着扫描数据库(就业信息事务数据表)。
利用SQL中非常有用的集合函数函数COUNT()语句对Distinct语句返回的每一属性值进行计数。
用这个函数我们可以得到一个表中有多少条记录。
例如:
对“性别”字段,分别调用以下SQL语句:
COUNT(*)FROM就业信息事务表WHERE性别=“男”
COUNT(*)FROM就业信息事务表WHERE性别=“女”
对所有字段都进行上述操作,如果返回的计数值与就业信息事务表中总事务数的比值大于最小支持度min_sup,则保留下来,否则从谓词集表中删除。
这样下来对学生信息的每一维属性而言,保留下来的都是满足支持度的单维频繁谓词。
最后在此一维频繁谓词基础上,进行K维频繁谓词的挖掘,流程如下图所示:
频繁谓词挖掘流程
3.2.2求取多维频繁项集
因为该项目进行的