ImageVerifierCode 换一换
格式:DOCX , 页数:11 ,大小:336.97KB ,
资源ID:10226610      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-10226610.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据挖掘weka数据分类实验报告.docx)为本站会员(b****3)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

数据挖掘weka数据分类实验报告.docx

1、数据挖掘weka数据分类实验报告一、实验目的使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。二、实验环境 实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以与数据挖掘软件。Weka提供了一个统一界面,可结合预处理以与后处理方法,将许多不同的学习算法应用于任何所

2、给的数据集,并评估由不同的学习方案所得出的结果。三、数据预处理Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示图1 ARFF格式数据集(iris.arff)对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Ve

3、rsicolour和Iris Virginica。实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。若所采用的数据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属性的筛选。实验所需的训练集和测试集均为iris.arff。四、实验过程与结果应用iris数据集,分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以与该模型所有设置的最优参数。最后使用这些参数以与训练集和校验集数据一起构造出一个最优分类器,并利用该分类

4、器对测试数据进行预测。1、LibSVM分类Weka 平台部没有集成libSVM分类器,要使用该分类器,需要下载libsvm.jar并导入到Weka中。用“Explorer”打开数据集“iris.arff”,并在Explorer中将功能面板切换到“Classify”。点“Choose”按钮选择“functions(weka.classifiers.functions.LibSVM)”,选择LibSVM分类算法。在Test Options 面板中选择Cross-Validatioin folds=10,即十折交叉验证。然后点击“start”按钮:使用LibSVM分类算法训练数据集得出的结果参数:S

5、 0 K 2 D 3 G 0.0 R 0.0 N 0.5 M 40.0 C 1.0 E 0.0010 P 0.1结果分析:使用该参数指定的LibSVM训练数据集,得到准确率为96.6667%,其中150个实例中的145个被正确分类,5个被错误分类。根据混淆矩阵,被错误分类实例的为:2个b类实例被错误分类到c;3个c类实例被错误分类到b。该算法P=0.967,R=0.967,ROC面积为0.975。将模型应用于测试集:使用LibSVM分类算法测试数据集得出的结果分类误差:结果分析:准确率为98.6667%,只有两个实例被错误分类。P=0.987,R=0.987,ROC面积为0.992、C4.5决

6、策树分类器依然使用十折交叉验证,训练集和测试集一样。使用C4.5决策树分类算法训练数据集得出的结果参数:-C 0.25 -M 2结果分析:使用该参数指定的C4.5决策树分类器训练数据集,得到准确率为96%,其中150个实例中的144个被正确分类,6个被错误分类。根据混淆矩阵,被错误分类实例的为:2个b类实例被错误分类到c,1个b类实例被错误分类到a;3个c类实例被错误分类到b。该算法P=0.96,R=0.96,ROC面积为0.968。将模型应用于测试集:使用C4.5分类算法测试数据集得出的结果分类误差:结果分析:准确率为98%,有3个实例被错误分类。P=0.98,R=0.98,ROC面积为0.

7、9933、朴素贝叶斯分类器使用朴素贝叶斯分类算法训练数据集得出的结果参数:无结果分析:使用朴素贝叶斯分类器训练数据集,得到准确率为95.3333%,其中150个实例中的143个被正确分类,7个被错误分类。根据混淆矩阵,被错误分类实例的为:4个b类实例被错误分类到c;3个c类实例被错误分类到b。该算法P=0.953,R=0.953,ROC面积为0.994。将模型应用于测试集:使用朴素贝叶斯分类算法测试数据集得出的结果分类误差:结果分析:准确率为96%,有6个实例被错误分类。P=0.96,R=0.96,ROC面积为0.9954、三种分类算法比较:LibSVMC4.5决策树朴素贝叶斯校验准确率98.6667%98%96%训练混淆矩阵校验混淆矩阵标准误差0.09430.1080.1483比较结果分析:LibSVM算法相比C4.5决策树算法、朴素贝叶斯算法具有更好的分类性能。五、实验总结通过本次实验,我对Weka平台有了比较完整和深入的认识,掌握了使用Weka平台进行数据挖掘的方法,包括数据预处理、分类、聚类、关联分析等。通过实验,对数据挖掘本身也有了比较直观的认识。

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2