毕业生就业数据分析系统开发毕业设计.docx

资源描述

毕业生就业数据分析系统开发毕业设计.docx

《毕业生就业数据分析系统开发毕业设计.docx》由会员分享，可在线阅读，更多相关《毕业生就业数据分析系统开发毕业设计.docx（45页珍藏版）》请在冰点文库上搜索。

毕业生就业数据分析系统开发毕业设计.docx

毕业生就业数据分析系统开发毕业设计

毕业生就业数据分析系统开发

摘要

高校毕业生的就业问题已经成为全社会都关注的热点问题。

这些年来高校招生规模逐年扩大，不断增加的毕业生数目给高校的就业管理工作造成了很大的压力。

在这种形势下，如果仍然采用传统的毕业生管理办法，不仅仅工作效率低下，而且工作质量不咼，很容易发生错误。

矚慫润厲钐瘗睞枥庑赖。

目前对高校毕业生的就业状况分析是较为简单的，大多仅仅按学校的就业率和专业就业率来进行评价，显得片面缺乏科学性。

根据这一情况，借助计算机对毕业生就业信息进行挖掘，对如今的教学质量和学生工作质量进行科学的综合分析，寻找影响毕业生就业困难的原因，以便对我们今后的教学和学生工作提出指导性的建议。

聞創沟

燴鐺險爱氇谴净。

本课题针对学生的性别、素质培养、综合成绩、社会实践等方面在学生就业所反应的情况建立一个数据挖掘分析模型，由此得到对教学质量和学生工作质量评价的科学的新方法。

针对毕业生就业情况建立数据挖掘分析模型是数据挖掘分析方法的一个新尝试，这将进一步促进数据挖掘理论的发展，并且拓宽了数据挖掘分析方法的应用领域，同时对教学质量分析和学生工作质量分析提供科学评价的新方法。

残骛楼静错瀨濟淑塹籟

关键字：

数据挖掘；贝叶斯定理；数据库

DevelopmentOfAnalysisSystemforGraduateEmploymentData酽锕极

額閉镇桧猪訣锥。

Abstract

Theemploymentofuniversitygraduateshasalreadybecamethehottopicwhichdrawsmuchattentionaroundtheentiresociety.Astheuniversityrecruitmentofstudentsscaleisexpandingyearbyyeargradually,theincreasingnumberofgraduatestudentshascreatedhugepressureforuniversity'ssupervisorywork.Underthissituation,ifwestillusethetraditionalpolicingmethodofthegraduate,boththeworkingefficiencyandtheworkqualitywillnotbesatisfyinganditwillbeveryeasytomakemistake.彈贸摄尔霁毙攬砖卤庑。

Currently,theanalysistouniversitygraduates'workstatusisquitesimple.Mostoftheevaluationisbasedontheschoolemploymentrateandthespecializedemploymentrate,whichisconsideredtobeimproper.Accordingtothissituation,wefindtheinformationofthegraduatewiththeaidofthecomputerandcarryonthescientificandcomprehensiveanalysisofthequalityofteachingandthestudentswork.Wefocusonseekingtothecausesofdifficultyinemploymentinordertoproposesomesuggestionstoguidethenextteachingandtheworkofstudent.謀养抟箧飆鐸怼类蒋薔。

Thetopicistoestablishadatamininganatomicmodelintermsofsex,qualitytraining,integratedresults,socialpracticeandsoontoobtainanewscientificmethodtoevaluatethequalityofteachingandthestudentworkquality.Thisdataanalysismethodisanewattempt,thiswillpromotethefurtherdevelopmentofdataminingtheory,andithasexpandedtheapplicationdomainofdatamininganalysismethod.Simultaneously,itprovidesanewscientificmethodtoevaluatethequalityofteachingandthestudentworkquality.厦礴恳蹒骈時盡继價骚。

Keywords:

DataminingBayetheoremDatabase

1.5数据挖掘技术2贓熱俣阃歲匱阊邺镓騷。

1.5.1数据挖掘技术的产生背景2坛搏乡囂忏蒌鍥铃氈淚。

1.5.2数据挖掘技术的定义及含义3蜡變黲癟報伥铉锚鈰赘。

1.6贝叶斯分类算法3買鯛鴯譖昙膚遙闫撷凄。

1.6.1贝叶斯算法的介绍3綾镝鯛駕櫬鹕踪韦辚糴。

1.6.2贝叶斯定理3驅踬髏彦浃绥譎饴憂锦。

1.6.3朴素贝叶斯分类的原理与流程4猫虿驢绘燈鮒诛髅貺庑。

1.6.4估计类别下特征属性划分的条件概率及Laplace校准.....6锹籁饗迳琐筆襖鸥娅薔。

1.6.5贝叶斯定理应用6構氽頑黉碩饨荠龈话骛。

1.7小结7輒峄陽檉簖疖網儂號泶。

第2章方案论证8尧侧閆繭絳闕绚勵蜆贅。

2.1设计原理、方案选择8识饒鎂錕缢灩筧嚌俨淒。

2.2开发工具和开发环境介绍9凍鈹鋨劳臘错痫婦胫籴。

2.2.1开发工具MyEclipse8.59恥諤銪灭萦欢煬鞏鹜錦。

2.2.2MySQL数据库9鯊腎鑰诎漣鉀沩懼統庫。

2.2.3Tomcat服务器10硕癘鄴颃诌攆檸攜驤蔹。

224Tomcat在MyEclipse的配置和使用10阌擻輳嬪諫迁择植秘騖。

2.3小结13氬嚕躑竄贸恳彈濾颔澩。

第3章系统分析与设计14釷鹆資贏車贖孙滅獅赘。

3.1需求分析14怂阐譜鯪迳導嘯畫長凉。

3.1.1系统功能需求14谚辞調担鈧谄动禪泻類。

3.1.2系统可行性分析15嘰觐詿缧铴嗫偽純铪锩。

3.2总体设计16熒绐譏钲鏌觶鷹緇機库。

3.2.1毕业生就业信息表16鶼渍螻偉阅劍鲰腎邏蘞。

3.2.2模块戈U分16纣忧蔣氳頑莶驅藥悯骛。

3.2.3系统数据流图17颖刍莖峽饽亿顿裊赔泷。

3.2.4系统总功能图17濫驂膽閉驟羥闈詔寢賻。

3.3数据库设计18銚銻縵哜鳗鸿锓謎諏涼。

3.3.1概念模型18挤貼綬电麥结鈺贖哓类。

3.3.2逻辑模型19赔荊紳谘侖驟辽輩袜錈。

3.3.3物理模型19塤礙籟馐决穩賽釙冊庫。

3.4分模块设计21裊樣祕廬廂颤谚鍘芈蔺。

3.4.1毕业生数据录入、修改的模块设计22仓嫗盤紲嘱珑詁鍬齊驚。

3.4.2数据建模的模块设计23绽萬璉轆娛閬蛏鬮绾瀧。

3.3.3预测毕业生就业情况23骁顾燁鶚巯瀆蕪領鲡赙。

3.4.4分析统计图23瑣钋濺暧惲锟缟馭篩凉。

3.5小结24鎦诗涇艳损楼紲鯗餳類。

第4章系统测试与运行25栉缏歐锄棗鈕种鵑瑶锬。

4.1毕业生就业数据分析系统25辔烨棟剛殓攬瑤丽阄应。

4.1.1数据库的连接和访问操作正常25峴扬爛滾澗辐滠兴渙藺。

4.1.2整个界面菜单正常26詩叁撻訥烬忧毀厉鋨骜。

4.2模块设计26则鯤愜韋瘓賈晖园栋泷。

4.2.1数据录入、修改模块26胀鏝彈奥秘孫戶孪钇賻。

4.2.2MyEclipse的运行正常26鳃躋峽祷紉诵帮废掃減。

4.2.3数据分析图输出正常27稟虛嬪赈维哜妝扩踴粜。

第5章结束语与展望29陽簍埡鮭罷規呜旧岿錟。

5.1结束语29沩氣嘮戇苌鑿鑿槠谔應。

5.2展望29钡嵐縣緱虜荣产涛團蔺。

致谢寸31懨俠劑鈍触乐鹇烬觶騮。

参考文献32謾饱兗争詣繚鮐癞别濾。

引言

近年来随着人工智能技术和数据库技术的发展，数据挖掘技术出现。

数据挖掘是一个从模糊的、有噪声的、不完全的、大量的、随机的，从大量人们事先所不知道的、但又是潜在有用的信息和知识的一个过程。

需要我们不断挖掘。

呙铉們欤谦鸪饺竞荡赚。

本论文讲述的是运用数据挖掘技术中的贝叶斯分类算法对应届毕业生在毕业后的就业情况进行预测。

《毕业生就业数据分析系统开发》是按照数据挖掘方法及软件工程设计步骤，详细地说明了整个开发过程以及每一个技术细节。

同时，还阐述了课题的来源、需求分析、设计、实现和实验结果等情况。

莹谐龌蕲賞组靄绉嚴减。

第1章选题背景概述

1.1课题背景

随着数据库技术的不断发展以及数据库管理系统的推广应用，人们积累的数据越来越多。

而九十年代后因特网的出现，更是打破了各种限制，人们甚至能够跨越时空交换数据信息。

因此，展现在人们面前的数据不仅仅局限于某个部门、某个单位和某个行业等，而是浩瀚无限的信息海洋。

麸肃鹏镟轿騍镣缚縟糶。

大量增加的数据背后隐藏着很多的重要信息，人们希望能够进行更高层次的分析,

以便更好地利用这些数据。

虽然目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但是无法自动、智能地将等待处理的数据背后隐藏的重要信息和知识挖掘出来加以利用，无法根据现有的数据预测未来的发展趋势，并达到决策服务的目的，因此导致“数据海量爆炸但是知识贫乏”的现象。

納畴鳗吶鄖禎銣腻鰲锬。

因此，我们必须找到有关方法，自动地分析数据、自动地对数据汇总、自动发现和描述数据中的趋势、自动地对数据进行分类、自动地标记异常。

風撵鲔貓铁频钙蓟纠庙。

1.2课题的目的和意义

随着我国高等教育的普及，全国大部分高校都根据自身情况进行了扩招，于是造成如今高校毕业生的就业形势逐渐严峻的状态。

很多大学生都愁于找不到工作。

当前对于高校毕业生的就业状况的分析相对简单，大多仅仅按学校的就业率和专业就业率进行评价，显得片面、缺乏科学性。

灭暧骇諗鋅猎輛觏馊藹。

在现实实际中，所谓名校，热门专业等等，并不能保证毕业生绝对能就业。

从微观上看，学生自身的素质和某些硬性条件是影响就业的关键。

根据这一情况，借助计算机对毕业生的就业信息进行挖掘，可以对目前的教学质量进行科学的综合分析，寻找影响毕业生就业的因素，以便对我们今后的教学和学生工作提出指导性建议。

本课题正是在这一背景下提出，利用数据挖掘任务之一的分类，对过往的毕业生就业信息建立预测模型，同时应用该模型对即将的毕业生的就业状况进行预测，以便为学校招生就业部门的工作提供参考与建议。

铹鸝饷飾镡閌赀诨癱骝。

《毕业生就业数据分析系统开发》就是为了解决这个就业预测问题而开发的，它采用数据挖掘方法，通过统计分析，应用贝叶斯定理对未来即将就业的毕业生的就业趋势进行了预测。

可以预测到他们的就业情况和就业的概率。

该系统要求用户录入毕业生的各项相关数据，同时在录入后可以对录入的数据进行抽样分析，得到相应的计算模型，并测试该模型的可靠性及精确度，根据该计算模型对毕业生就业情况进行预测，得出就业统计分析图和就业概率统计图。

攙閿频嵘陣澇諗谴隴泸。

1.3国内外发展概况

1.3.1国外研究和发展现状

与数据挖掘（DataMining）极为相似的术语一一从数据库中发现知识（KDD）—词,

首次出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上。

1993年以后，美国计算机协会（ACM）每年都举行了专门的会议研究探讨数据挖掘技术。

会议名称为ACMSIGKDDIntemationalConferenceonKnowledgeDiscovery

andDataMining，简称KDD会议。

KDD会议的规模由原来的专题讨论会发展到国际学术大会。

研究重点也逐渐从发现方法转向系统应用。

并且注重多种发现策略和技术的集成，以及多种学科之问的相互渗透。

趕輾雏纨颗锊讨跃满賺。

国外的研究重点从发现方法逐渐向系统应用直到专享大规模的综合系统开发，并且注重多种发现策略和技术的集成。

夹覡闾辁駁档驀迁锬減。

1.3.2国内研究和发展现状

与国外相比.国内对DMKD勺研究稍晚，没有形成整体力量。

1993年国家自然科学基金首次支持中科院合肥分院对该领域的研究项目。

目前从事数据挖掘研究的人员主要在大学，也有部分在研究所或公司。

研究领域一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。

国内的许多科研单位和高等院校也竞相开展知识发现的基础理论及其应用研究。

视絀镘鸸鲚鐘脑钧欖粝。

1.4指导思想

本设计主要采用数据挖掘技术对毕业生就业情况进行预测。

整个设计关键在于贝叶斯定理的分类算法实现。

该设计方案主要采用数据挖掘技术，通过对往届毕业生就业数据的导入，对其进行统计分析，应用贝叶斯定理建立预测模型，并应用该模型对未来即将就业的毕业生的就业趋势进行预测。

可以预测到他们的就业情况和就业的概率。

偽澀锟攢鴛擋緬铹鈞錠。

1.5数据挖掘技术

1.5.1数据挖掘技术的产生背景

随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。

数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。

其主要任务是关联分析、分类、预测时序模式和偏差分析等。

是知识发现（knowledgediscoveryindatabase）的关键步骤。

緦徑铫膾龋轿级镗挢廟。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。

起初各种商业数据是存储在计算机的数据库中的，然后发展到可以对数据库进行查询和访问，进而发展到对数据库的即时遍历。

数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。

騅憑钶銘侥张礫阵轸蔼。

1.5.2数据挖掘技术的定义及含义

数据挖掘（DataMining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

疠骐錾农剎貯狱颢幗騮。

从广义上讲，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。

人们把数据看作是形成知识的源泉，不断地挖掘。

原始数据

可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。

发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。

因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。

在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。

镞锊过润启婭澗骆讕濾。

数据挖掘也是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。

简而言之，数据挖掘其实是一类深层次的数据分析方法。

商业领域产生了大量的业务数据，这些数据不再是为了分析的目的而收集的，而是由于纯机会的

（Opportunistic）商业运作而产生。

分析这些数据也不再是单纯为了研究的需要，更主要是为商业决策提供真正有价值的信息，进而获得利润。

但所有企业面临的一个共同问题是：

企业数据量非常大，而其中真正有价值的信息却很少，因此从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名。

榿贰轲誊壟该槛鲻垲赛。

1.6贝叶斯分类算法

1.6.1贝叶斯算法的介绍

贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。

在许多场合，朴素贝叶斯（NaiveBayes，NB）分类算法可以与决策树和神经网

络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。

邁茑赚陉宾呗擷鹪讼凑。

由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。

为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN（treeaugmentedBayesnetwork）算法。

嵝

硖贪塒廩袞悯倉華糲。

1.6.2贝叶斯定理

贝叶斯定理（Bayes'theorem）是概率论中的一个结论，它跟随机变量的条件概率以及边缘概率分布有关。

在有些关于概率的解说中，贝叶斯定理能够告知我们如何利用新证据修改已有的看法。

该栎谖碼戆沖巋鳧薩锭。

通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系，贝叶斯定理就是这种关系的陈述。

贝叶斯公式的用途在于通过己知三个概率函数推出第四个。

它的内容是：

在B出现的前提

下,A出现的概率等于A出现的前提下B出现的概率乘以A出现的概率再除以B出现的概率。

通过联系A与B,计算从一个事件产生另一事件的概率，即从结果上溯原。

劇妆诨貰

攖苹埘呂仑庙。

作为一个普遍的原理，贝叶斯定理对于所有概率的解释是有效的；然而，频率主义者和贝叶斯主义者对于在应用中，某个随机事件的概率该如何被赋值，有着不同的看法：

频率主义者根据随机事件发生的频率，或者总体样本里面的发生的个数来赋值概率；贝叶斯主义者则根据未知的命题来赋值概率。

这样的理念导致贝叶斯主义者有更多的机会使用贝叶斯定理。

臠龍讹驄桠业變墊罗蘄。

贝叶斯定理是关于随机事件A和B的条件概率（或边缘概率）的一则定理。

其中P（A|B）是在B发生的情况下A发生的可能性。

在贝叶斯定理中，每个名词都有约定俗成的名称：

（1）P（A）是A的先验概率或边缘概率。

之所以称为"先验"是因为它不考虑任何B方面的因素。

（2）P（A|B）是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。

（3）P（BA）是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。

（4）P（E）是B的先验概率或边缘概率，也作标准化常量（normalizingconstant）。

按这些术语，Bayes定理可表述为：

后验概率=（相似度*先验概率”标准化常量。

也就是说，后验概率与先验概率和相似度的乘积成正比。

另外，比例P（B|A）/P（B）也有时被称作标准相似度（standardisedlikelihood），Bayes定理可表述为：

鰻順褛悦漚縫輾屜鸭骞。

后验概率=标准相似度*先验概率。

1.6.3朴素贝叶斯分类的原理与流程

朴素贝叶斯分类法是一种十分简单的分类算法，朴素贝叶斯分类名字缘由是因为这种方法的思想很朴素，朴素贝叶斯的思想基础是这样的：

对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个概率最大，就认为此待分类项属于哪个类别。

通俗说，就好比这么个道理，你在街上看到一个黑人，我们不能确切说他是从哪里来的，但是你十有八九猜是非洲人。

主要原因是黑人中非洲人的比率最高，不能否定黑人也可能是美洲人或其他，但是在没有其它可用信息下，我们一定是会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

穡釓虚绺滟鳗絲懷紆泺。

朴素贝叶斯分类法的正式定义如下：

1、设x=：

ai,a2,…，为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合C八yi,y2,,...,y。

3、计算Pyi|x,Py21x,...,Pyn|x。

4、如果Pyk|x=maxPyi|x,Py2|x,...,Pyn|x｛，则xyk。

现在的关键是计算第3步中各个条件概率，就能得出第4步的最大值。

接下来我们可以这么做：

1、先要找到一个已知分类的待分类项集合，这个集合称为训练样本集。

2、然后统计得到在各类别下各个特征属性的条件概率估计。

即

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导:

因为分母对于所有类别为常数，即我们只要将分子最大化。

又因各特征属性为条件独立的，所以有：

P（x|yi）P（yi）二P（ai|yi）P（a21yi）...P（am|yi）P（yi）二P（yi^P（aj|yi）

j=i

（i.3）

图1-1朴素贝叶斯分类流程图

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段一一准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，

主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。

这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。

这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

隶誆荧鉴獫纲鴣攣駘賽。

第二阶段一一分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率，并

将结果记录。

其输入是特征属性和训练样本，输出是分类器。

这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

浹繢腻叢着駕骠構砀湊。

第三阶段一一应用阶段。

这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。

这一阶段也是机械性阶段，由程序完成。

鈀燭罚櫝箋礱颼畢韫粝。

1.6.4估计类别下特征属性划分的条件概率及Laplace校准

我们可以看出计算各个划分的条件概率P（a|y）是朴素贝叶斯分类的关键性步骤，

当特征属性为离散值时，只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P（a|y），下面重点讨论特征属性是连续值的情况。

惬執缉蘿绅颀阳灣愴鍵。

当特征属性为连续值时，通常假定其值服从高斯分布（也称正态分布）。

即:

1-nf

展开阅读全文