基于数据挖掘技术的学生成绩分析系统.docx

资源描述

基于数据挖掘技术的学生成绩分析系统.docx

《基于数据挖掘技术的学生成绩分析系统.docx》由会员分享，可在线阅读，更多相关《基于数据挖掘技术的学生成绩分析系统.docx（41页珍藏版）》请在冰点文库上搜索。

基于数据挖掘技术的学生成绩分析系统.docx

基于数据挖掘技术的学生成绩分析系统

本科毕业设计（论文）

题目:

基于数据挖掘技术的学生成绩分析系统的设计与实现

姓名张宇恒

学院软件学院

专业软件工程

班级2010211503

学号10212099

班内序号01

指导教师牛琨

2014年5月

基于数据挖掘技术的学生成绩分析系统的设计与实现

摘要

随着科技的不断发展和中国教育制度的日趋完善，各大高校对教务管理工作提出了越来越高的要求。

各大高校不再满足于传统的成绩管理方式，开始运用数据挖掘领域的先进方法对学生成绩进行分析和研究。

教务工作人员使用关联规则挖掘算法分析课程间的内在联系，可为学校的改进教学工作提供依据，并为学生的选课和学业规划提供指导；对学生进行分类，让学生能够对自己在校期间所学课程的成绩有一个全面而清晰的了解，方便学生扬长避短选择选修课程，及时对可能在学习上遇到困难的学生进行预警；运用聚类算法对学生进行聚类，找出具有共同特征的学生，并对不同学生群体分别采取不同的教学方法，初步体现因材施教的教育理念，最终探索出适合中国国情和教育制度的个性化培养模式。

本系统采用Eclipse作为开发平台，以Java作为开发语言。

通过对高校学生成绩分析系统的需求分析，本系统设计实现了可以使用关联规则挖掘算法分析课程间的内在联系，使用分类算法对学生进行分类，使用聚类算法对学生进行聚类。

希望本系统能对今后高校学生成绩分析系统的开发提供一定的参考价值。

关键词成绩分析关联规则分类聚类

Designandimplementationofstudentachievementanalysissystembasedondataminingtechnology

ABSTRACT

WiththecontinuousdevelopmentoftechnologyandtheChineseeducationsystemmaturing,Universitieshaveputhigherrequirementstotheiracademicadministration.Universitiesarenolongersatisfiedwithtraditionalperformancemanagement,begantoapplyadvanceddataminingmethodstoanalyzeandstudystudents’achievement.Staffofacademicaffairsuseassociationruleminingalgorithmtoanalysisintrinsiclinkbetweencourses,whichcanprovidethebasisforimprovingtheteachingoftheschoolandguidanceforthestudent'senrollmentandacademicplanning.Usingclassificationalgorithmtoclassifythestudents,sothatstudentscanhaveaclearunderstandingintheiracademicperformance,andfacilitatestudentsinselectingcourses.Warningstudentswhoprobablyfacedifficultiesintheacademic.Usingclusteringalgorithmtoclusterthestudentstoidentifystudentswithcommoncharacteristics,sothatteacherscanteachdifferentstudentsindifferentway,embodiestheconceptofindividualizededucation,finallydiscoverapersonalizededucationmodel,whichissuitableforChina'snationalconditionsandeducationsystem.

ThesystemwasdevelopedinEclipse,withjavaasadevelopmentlanguage.Byanalyzingtheneedofstudentachievementanalysissystem,thissystemusesassociationruleminingalgorithmtoanalysisintrinsiclinkbetweencourses,usesclassificationalgorithmtoclassifythestudents,usesclusteringalgorithmtoclusterthestudentstoidentifystudents.Ihopethissystemcanprovidesomereferencevaluetothefuturedevelopmentofcollegestudents’achievementanalysissystem.

KEYWORDSachievementanalysisassociationrulesclassificationclustering

第一章引言

1.1选题的背景和意义

进入新世纪以来，我国的高等教育事业正在快速发展，各个领域的重大科研成果不断涌现，各知名院校的国际排名和知名度也不断攀升。

然而在这些光鲜靓丽的学术成果之下，各大高校对学生的管理工作却并没有跟上时代的步伐。

其实对于给大高校来说，学生的考试成绩是一笔非常宝贵的财富。

学生的成绩是反映学校教学水平的最直接的第一手资料，这些数据可以为学校改进招生和教学工作提供重要依据。

然而，学生成绩的管理工作并没有引起高校足够的重视，尤其是在对学生成绩的分析处理方面，绝大部分高校还停留在较为原始的数据库管理和查询阶段，没有对学生的成绩进行横向和纵向的对比研究，也缺乏对各学科之间成绩内在联系的挖掘。

学科成绩间的内在联系是广泛存在于各个专业的各门课程中的，学科成绩间内在联系的分析和研究对对学生和学校都有着十分重要的意义。

通过了解学科成绩间存在的内在联系，学生可以清楚地认识到基础课程、先导课程的重要性，并且在选择选修课的时候，做到扬长避短，通过更多地选择与自己优势课程成绩正相关的课程来帮助提高成绩。

而对于学校来说，分析学科成绩间的内在联系可以为各个专业的课程设置提供重要的参考依据。

在教务工作人员进行排课工作时，可参考对往届学生成绩的分析结果来调整课程的排布顺序，达到不断优化课程设置的目的。

个性化培养和发展是当今高等教育发展的主流方向，以往填鸭式、工厂式的教学方式已经被先进的教育理念所替代，而中国教育制度中流水线式的培养模式一直是一个被广泛诟病、急需解决的问题。

在这一方面，我们可以借鉴发达国家的先进经验，结合我国高等教育发展现状，探索并逐步建立由中国特色的、适合我国国情的个性化培养体系。

目前可以通过对学生的成绩进行挖掘和分析，对学生进行分群，为具有一定共同特征的学生制定个性化培养方案。

基于上述情况，本题目以完善高校培养制度和制定学生个性化培养方案为背景，通过运用数据挖掘及相关专业技术，设计并实现学生成绩分析系统。

1.2个性化培养的重要意义

个性化培养其实并不是一个新颖的概念，2000多年前，我国著名教育家孔子就提出了因材施教的教育理念，并且身体力行地用因材施教的方法教育自己的弟子。

在2000多年后的今天，多元化人才培养是高等教育发展的必然趋势。

个性化培养不仅是实现多元化人才培养最重要的方式，更是我国建立创新型国家战略对高等教育提出的必然需求。

只有摒弃传统的流水线式培养模式，在高等院校中全面推行个性化培养，我国高等教育才能真正完成人才培养方式的革命。

（1）个性化培养是高等教育发展的现实需要

个性化教育，是社会对大学生的预期变化的结果。

在当今时代，社会要求每个人都能发挥自己独特而不可替代的作用，教育的使命也悄然转变为激发每一名学生的内在潜能。

在高等院校推行个性化教育是中国高等教育的发展方向，更是世界大多数国家的共识。

随着大学的扩招，原本曲高和寡的高等教育已经走进了普罗大众的生活。

但是大众化的高等教育不等于流水线式的培养，相反普及高等教育的意义正在于让更多的人进入大学，按照自己的兴趣和自身特点选择专业进行学习，成为独特的人才。

（2）个性化培养是创新型国家战略的必然要求

2006年，国家制定了建设创新型国家的重大决策。

增强自主创新能力是建设创新型国家战略中最重要的一环，而作为高端人才培养基地的众多高等院校毫无疑问成为了自主创新的排头兵。

受制于特殊的国情和几千年的科举传统，我国目前的教育模式仍然是以死记硬背为主要学习手段，以分数作为评价学生优劣的主要甚至是唯一标准。

在这种教育模式中培养出来的学生中，相当一部分是与社会脱节的、毫无创新能力可言的“考试机器”。

现有的人才培养模式明显滞后于经济社会的发展，更是与建设创新型国家战略相违背的。

只有立即转变人才培养模式，真正实现以人为本的个性化培养，才能使高等院校成为培养创新型人才的土壤。

因此，以培养多元化人才为主导的个性化培养模式是我国高等教育发展的必然趋势。

1.3国内外个性化培养的现状

1.3.1国外个性化培养现状

随着高等教育的不断发展，在发达国家学生个性化发展的理念已经深入人心。

其中高等教育最为发达同时也是中国留学生首选目的地的美国毫无疑问走在了世界的前列。

以常青藤联盟为代表的美国知名大学在新生录取时并不会给新生确定专业，而是根据学生的意愿将学生分进不同的基础学院，允许学生在学院内自由地选择课程。

在完成一到两年的基础学习后，学生可以根据所学的课程和个人兴趣爱好自由选择自己的专业。

这是一种非常人性化的人才培养模式。

学生在入学时往往对自己所选择的专业并不十分了解，有的甚至是一无所知，仅凭一时兴起做出了选择。

在这种情况下确定学生的专业显然不是最合理选择的。

当学生完成了一段时间的学习后，无论是对所学的专业，还是对自身的学术能力和兴趣爱好都有了一个更深层次的认识。

在这个时候学生对专业的选择往往会更加理性，这无论对学生还是对学校来说都是大有裨益的。

而国际知名的布朗大学更是敢为天下先地取消了必修课制度，学生可以完全根据自己的兴趣选择学校提供的任何课程，修满学校要求的学分后即可毕业。

学校根据学生选择的课程来给学生颁发不同专业的毕业证书。

布朗大学认为：

没有人会告诉学生应该上什么课或怎样做，只要有兴趣，学生可以自由的发展。

但是这种教学模式一度受到了美国教育界的广泛非议。

相比布朗大学，其他常青藤盟校显得保守了许多，或是设置了一些必修课，或是对学生可以选择的课程做出了一系列规定，总而言之，布朗大学超前的教育理念并没有被其他大学所广泛接受。

1.3.2国内个性化培养现状

国内的高等院校仍然遵循着传统的人才培养模式，在当今的时代中已经暴露出了诸如学科专业结构的设置缺乏整体思考、缺少系统设计；课程体系不够综合、开设比例不够合理；考核评价体系知识记忆、轻创新实践等方面的问题。

在高校中探索并发展个性化培养模式已经成为了绝大多数教育界人士的共识。

相比较国外已经比较成熟的个性化培养方案而言，国内的个性化培养方案尚处在起步摸索阶段，绝大多数国内高校的课程设置都已必修课程为主，辅以少量与专业相关的选修课程供学生选择，离真正的个性化培养还有比较大的差距。

学生的专业也都是在招生是就已经确定了，为学生提供的更改专业的机会也比较少，与高等教育比较发达的国家还有较大差距。

1.4成绩分析系统的现状和存在的问题

1.4.1成绩分析系统开发使用的现状

对于高校来说，教务管理是他的核心工作之一，而成绩分析能力的高低是衡量教务管理水平的一个关键指标。

教务管理的水平对高校教学水平的进步和发展有着至关重要的意义。

在当今社会，随着教育改革的逐步深入,和科学技术的发展社会对高校的成绩分析管理提出了许多新的要求，“规范化、信息化、网络化”是学校教学管理的必然选择。

建立并应用一套优秀的成绩分析系统是提升教务管理水平的关键所在。

目前，各高校普遍建立了教务信息管理系统，其中很多高校还根据自身需求建有成绩分析系统。

此类系统一般采用关系型数据模型,数据库中主要包括学生的姓名、学号、专业、考试成绩的个人信息。

而每个信息又与其它信息相关联，形成了庞大的、涵盖整个教务管理过程的数据信息网。

教务管理信息系统实现了教务信息的集中管理、分散操作、信息共享，使传统的教务管理向数字化、无纸化、智能化、综合化及多元化的方向发展。

借助现代信息技术，不同形式的成绩分析系统正在利用网络优势实现资源的共享、权限的信息录入、查询及修改等，改变了传统教务管理模式下信息数据层层传达及存储的模式，提高了信息的实效性，实现了真正意义上的信息交换与互动。

1.4.2成绩分析系统建设存在的问题

然而需要正视的是，我国高校的学生成绩分析系统仍然存在着一定问题，主要表现在：

（1）功能需求不明确，设计不尽完善

各所高校间教务管理的流程有所不同，教务管理人员如何根据自身学校的特点建立成绩分析系统是一个具有普遍性问题。

目前建成的成绩分析系统，大多都没有严格遵循软件项目开发流程，对功能需求的分析做的不够彻底，设计也不够完善，难以达到理想的效果。

其中一个最主要的原因是使用者和设计者没能进行充分的沟通，设计人员对教务管理流程并不熟悉，和教学效果体现的理解也不透彻，使得现今的成绩分析系统大多不尽如人意。

（2）没有运用数据挖掘技术对成绩进行分析

当今大部分高校对学生成绩管理的理解还停留在较为原始的数据库管理和查询阶段，对学生成绩的分析多以简单地求平均分、中位数、计算方差和标准差、统计优秀率及格率等方式进行。

对于很多教务工作者来说，数据挖掘技术是一个更多的运用在商业领域的、离教务管理很遥远的东西。

其实在美国等发达国家，数据挖掘技术早已走进了教务工作，成为了教务工作人员对学生成绩进行分析的重要手段。

有一些名校甚至拥有一支数据挖掘技术方面的专业团队来对学生成绩进行分析。

这些专业的分析结果不仅为学校改进教学工作提供了重要的参考依据，也为学生选择选修课和今后的发展方向提供了极大的便利。

第二章相关技术

2.1相关数据挖掘知识理论

2.1.1数据挖掘

数据挖掘（Datamining），又译为资料探勘、数据采矿。

它是数据库知识发现（Knowledge-DiscoveryinDatabases，KDD）中的一个步骤。

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

数据挖掘是目前人工智能技术和数据库领域的研究前沿。

数据挖掘是指从海量数据中发现出隐含在表象之下的、不为人所知的并有一定价值的信息的过程。

数据挖掘的实质是一种决策支持过程，它主要基于人工智能、模式识别、统计学等相关技术，分析规模庞大的数据，从中找出某种规律并做出归纳性的推理，帮助决策者提高决策的准确性。

数据准备、寻找规律和规律表示是数据挖掘的三个基本步骤。

数据准备是指从数据源中选取相关的数据并生成可用于数据挖掘工作的数据集；寻找规律是指通过一定方法将数据集中所隐含的规律挖掘出来；规律表示是指以用户容易理解的方式（尤其是那些并不熟悉数据挖掘技术的用户）将挖掘出的规律呈现给用户。

数据挖掘有填补缺失值，过滤噪声点、关联规则挖掘、分类、聚类、异常分析等任务。

近年来，“大数据”成为了一个非常流行的词汇，这意味着数据挖掘技术已经进入了我们生活的方方面面。

这其中最为主要的原因是我们身处在信息爆炸的时代，全世界每天产生的信息都以指数级增长，我们每天所接触的信息甚至超过几百年前一个人一生所能接触到的信息的总和。

如果不对数据进行处理，如此海量的数据对于人类来说就是电子垃圾。

通过数据挖掘技术，人们可以将原本无法处理的海量数据转变为有用且有限的信息和知识，充分发挥信息的价值。

2.1.2关联规则

关联规则是指大量数据中项集之间有趣的关联或相关联系。

如果两项或多项属性之间存在关联，那么其中一项的属性就可以依据其他属性值进行预测。

关联规则挖掘在数据挖掘中是一个重要的研究课题，一直是业界的研究热点。

“啤酒与尿布”的故事是对关联规则挖掘的生动阐释。

世界著名的沃尔玛超市在一次对原始销售数据的分析中意外发现：

和尿布一起销售最多的商品竟然是啤酒！

按照人们的常规思维，和尿布一起销售的应该是奶粉奶瓶一类的婴儿用品，尿布和啤酒可谓风马牛不相及。

但沃尔玛超市的工作人员在运用数据挖掘技术对销售信息进行分析后，成功揭示了“啤酒与尿布”的内在联系：

在美国，很多男士下班之后经常要遵照太太的指示去超市去给孩子购买尿布。

而他们其中三到四成的人会在同时为自己购买一些啤酒。

若不是借助了数据挖掘技术，很难想象沃尔玛能够在海量的销售信息中发现这一规律。

Apriori算法是一种应用最为广泛的统计关联规则频繁项集的算法，其核心是基于两阶段频集思想的递归算法。

在Apriori算法中，所有大于最小支持度的集都称为频繁项集。

该算法的基本思想是：

首先找出所有的频繁项集，然后由频繁项集产生强关联规则，而这些规则必须同时满足最小支持度和最小置信度。

由于采用了递归的方法，Apriori算法有两个主要的缺点：

会产生大量的候选集,以及需要对数据进行多次扫描。

在数据量大于一定规模时，Apriori算法的时间复杂度会比较惊人。

2.1.3分类

分类是一种重要的数据分析形式，它提取刻画重要的数据类的模型。

这种模型称为分类器，预测分类的类标号。

分类可用于预测，从历史数据记录中自动推导出给定数据的推广描述，从而对未来的数据进行类预测。

分类具有广泛的应用，例如医疗诊断、信用卡系统的信用分级、图像模式识别等。

决策树算法是一种非常典型的算法。

在决策树算法中，首先要对数据进行处理，生成可读的规则和决策树，然后使用决策对其他数据进行分析和判断。

从本质上说，决策树算法是通过一系列规则对数据进行分类的过程。

决策树算法在20世纪60年代被首次提出，到了70年代末，JRossQuinlan提出了ID3算法，此算法的目的在于减少树的深度，但是忽略了叶子数目的研究。

C4.5算法是其改进算法，在缺值处理、剪枝技术和派生规则等方面作了较大改进。

使其既适用于分类问题，又适用于回归问题。

构造的决策树是否精度足够高、规模足够小是评价一个决策树算法是否优秀的关键标准。

决策树构造可以分为两个步骤。

首先是由训练样本集生成决策树的过程。

在大多数情况下，训练样本数据集是根据实际需要有历史的、有一定综合程度的，用于数据分析处理的数据集。

然后是对决策树的剪枝，其本质是对决策树进行检验和校正的过程，主要方法是用新数据校验决策树生成过程中得出的规则，并将影响准确性的分枝剪除。

2.1.4聚类

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。

聚类分析起源于分类学，但是聚类不等于分类。

聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。

该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

k个初始类聚类中心点的选取对聚类结果具有较大的影响，因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心，初始地代表一个簇。

该算法在每次迭代中对数据集中剩余的每个对象，根据其与各个簇中心的距离将每个对象重新赋给最近的簇。

当考察完所有数据对象后，一次迭代运算完成，新的聚类中心被计算出来。

如果在一次迭代前后，J的值没有发生变化，说明算法已经收敛。

DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一个比较有代表性的基于密度的聚类算法。

与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。

DBSCAN需要二个参数：

扫描半径和最小包含点数。

任选一个未被访问的点开始，找出与其距离在最小半径之内的所有附近点。

如果附近点的数量大于等于最小包含点数，则当前点与其附近点形成一个簇，并且出发点被标记为已访问。

然后递归，以相同的方法处理该簇内所有未被标记为已访问的点，从而对簇进行扩展。

如果附近点的数量小于最小包含点数，则该点暂时被标记作为噪声点。

如果簇充分地被扩展，即簇内的所有点被标记为已访问，然后用同样的算法去处理未被访问的点。

2.2开发工具的选择

2.2.1Eclipse简介

Eclipse是一个开源的、基于Java技术的可扩展开发平台。

就Eclipse本身而言，它只是一个框架和一组服务，主要用于通过插件组件构建开发环境。

Eclipse附带了一个标准的插件集，包括Java开发工具（JDK）。

虽然对于绝大多数用户来说，Eclipse只是一个Java集成开发环境（IDE），但Eclipse的目标却不仅限于此。

Eclipse还包括插件开发环境（Plug-inDevelopmentEnvironment，PDE），这个组件主要针对希望扩展Eclipse的软件开发人员，因为它允许他们构建与Eclipse环境无缝集成的工具。

由于Eclipse中的每样东西都是插件，对于给Eclipse提供插件，以及给用户提供一致和统一的集成开发环境而言，所有工具开发人员都具有同等的发挥场所。

这种平等和一致性并不仅限于Java开发工具。

尽管Eclipse是使用Java语言开发的，但它的用途并不限于Java语言；例如，支持诸如C/C++、COBOL、PHP等编程语言的插件已经可用，或预计将会推出。

Eclipse框架还可作为与软件开发无关的其他应用程序类型的基础，比如内存管理系统。

2.2.2Eclipse的优势

Eclipse是开源软件。

这表明Eclipse不仅不收取使用者的任何费用，而且使用者还可以通过研究网络上、尤其是各大编程论坛上公开的源代码进行学习。

对于使用者尤其是初学者来说，世界一流软件工程师的代码是一笔非常宝贵的财富，学习他们优秀的编程风格可以帮助初学者迅速提高自己的编程能力。

Eclipse采用插件机制，这意味着Eclipse是真正可扩展并可配置的。

对于使用者来说Eclipse就好象一间仓库，你可以随时在仓库里存放任何东西，也可以很方便地将不再需要的东西从仓库中取出来。

在互联网上有大量免收费和免费的插件，使用者可以通过合理使用插件极大地简化编程工作。

虽然绝大多数开发者仅仅把Eclipse作为一个Jav

展开阅读全文