商务智能与数据挖掘实验报告Word文档下载推荐.docx

上传人:b****2 文档编号:877193 上传时间:2023-04-29 格式:DOCX 页数:12 大小:490.85KB
下载 相关 举报
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第1页
第1页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第2页
第2页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第3页
第3页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第4页
第4页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第5页
第5页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第6页
第6页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第7页
第7页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第8页
第8页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第9页
第9页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第10页
第10页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第11页
第11页 / 共12页
商务智能与数据挖掘实验报告Word文档下载推荐.docx_第12页
第12页 / 共12页
亲,该文档总共12页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

商务智能与数据挖掘实验报告Word文档下载推荐.docx

《商务智能与数据挖掘实验报告Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《商务智能与数据挖掘实验报告Word文档下载推荐.docx(12页珍藏版)》请在冰点文库上搜索。

商务智能与数据挖掘实验报告Word文档下载推荐.docx

实验内容及实验结果

一、对“data()2”进行分类分析

1.数据格式的转换

⑴打开“data02.xls”另存为CSV类型,得到“da(aO2.csv”。

S)dataO2・csv

⑵在WEKA中提供了一个“ArffViewer”模块,打开一个“data02.csv”进行浏览,然后另存为ARFF文件,得到"

dataO2.arff"

®

data02.arff

2.分类过程

(1)决策树分类

用“Explorer”打开数据“data02.arff”,然后切换到“Class辻y”。

点击“Choose”,选择算法"

trces-J48”,再在"

Testoptions"

选择uCross-validation(Flods=10)^,点击“Start”,开始运行。

训练结果:

系统默认trees-J48决策树算法中minNumObj=2,得到如下结果

==Summary==

Precision

RecallF-Mcasurc

ROCArea

Class

1

0.824

0.903

0.892

N

().75

0.857

Y

0.913

0.885

0.887

TPRate

==DetailedAccuracyByClass===

WeightedAvg.0.885=ConfusionMatrix===

a

b

<

—classifiedas

14

31

a=N

91

b=Y

 

使帀不同的参数准确率比较:

minNumObj

2

3

4

5

Correctly

Classified

Instances

23

22

(8&

4615%)

(84.6154%)

(88.4615%)

由上表,可知minNumObj为2时,准确率最高。

根据测试数集,利用准确率最高的模型得到的结果:

[制WekaClassifierTreeVisualizer:

11:

22:

13・trees.J48(旳帖02)[u>

]回j

TreeView

分析说明:

在用J48对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,No一部分结果如下:

CorrectlyClassifiedInstances2388.4615%

IncorrectlyClassifiedInstances311.5385%

===ConfusionMatrix==

ab<

—classifiedas

1431a=N

091b=Y

这个矩阵是说,原来是“Y”的实例,有14个被止确的预测为“Y”,有3个错误的预测成了原本是“NO”葩实例有0个被止确的预测成为“Y”,有9个正确的预测成了“N”。

“14+3+0+9=26”是实例的总数,而(14+9)/26=0.884615正好是正确分类的实例所占比例。

这个矩阵对角线上的数字越大,说明预测得越好。

(2)K最近邻分类算法

用“Explorer”打开数据“data02.arff”,然后切换至『Classify”。

点击“Choose”,选择算法“lazy-IBk”,再在"

Testoptionsw选择wCross-validation(Flods=10)"

点击"

Start"

开始运行。

系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果

—Summary—

CorrectlyClassifiedInstances

20

76.9231%

IncorrectlyClassifiedInstances

6

23.0769%

Kappastatistic

0.4902

Meanabsoluteerror

0.252

Rootmeansquarederror

0.4626

Relativeabsoluteerror

54.9136%

Rootrelativesquarederror

96.694%

Status,、、

OK[3」M0

TotalNumberofInstances26

=—De:

ailedAccuracyByClass===

FPRate

Recall

F-Measure

0.824

0.333

0.768

0.667

0.176

WeightedAvg.0.769

0.279

0.769

==ConfusionMatrix==

--classifiedas

143|a=N

36|b=Y

使用不同的参数准确率比较:

KNN

19

(76.9231%)

(73.0769%)

由上表,可知KNN为3时,准确率最高。

根据测试数集,利用准确率最高的模型得到的结果:

Classcolour

在用lazy-Ibk(KNN=3)对数据集进行分类时采用了10折交义验证(Folds=10)来选择和评佔模型,其中属性值有两个Y,No一部分结果如下:

===Summary==

===ConfusionMatrix=====

―classifiedas

161a=N

27|b=Y

这个矩阵是说,原来是“Y”的实例,有16个被正确的预测为“Y”,有1个错误的预测成了“N”。

原本是“NO”的实例有2个被正确的预测成为“Y”,有9个正确的预测成了“7”。

“16+1+2+7=26”是实例的总数,而(16+7)726=().884615正好是正确分类的实例所占比例。

二.对“dataOl”进行聚类分析

1.

数据咯式的转换

⑴打开“dataO1.xls"

另存为CSV类型,得到“dataOl.csv”。

⑵在WEKA中提供了一个“ArtTViewer”模块,打开一个udataOl.csv”进行浏览,然后另存为ARFF

文件,得到“dataOl.arff”。

OdataOl.arff

2.聚类过程

用“Explorer”打开数据“dataOl.arff”,然后切换到“Cluster”。

点击“Choose”,选择算法"

SimpleKMeans(numClusters=6,seed=200),再在“Testoptionsn选择"

Usetrainingset”,点击“Start”,开始运行。

训练结果:

StatusOK

采用simpleKMcans算法,其中numClusters=6,seed=100,得到如下结果:

Numberofiterations:

3

Withinclustersumofsquarederrors:

6.065322314450069(平方误差之和)

ClusteredInstances

04(15%)

13(12%)

24(15%)

33(12%)

42(8%)

510(38%)(各类的包含的实例个数以及占总实例的百分比)

cluaterOclusterl.clusters

|4>

]WekaClustererVisualize:

13:

44・SimpleKMeans(data32)[o|回j

X:

InstancjnumberQlwn)

jl:

Cluster(Horn)

Colour:

Cluster(Hom)

SelectInstance

说明:

其中当seed的取值越大,平方误差之和越小。

在这次实验seed=l(X),得到:

6.065322314450069.这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小。

接卜■来“Clustercentroids”:

列出了各个簇中心的位置:

Attribute

FullData

(26)

(4)

(3)

(2)

(10)

sample

13.5

22.5

4.6667

20.5

14.6667

4.5

11.2

old-year

48.0769

65.75

593333

50.5

25

56.5

41.9

VEGF

1.9231

2.75

2.3333

2.6667

MVC

102.1538

126.45

100.6667

127.4

88.2667

104

86.58

cancer-grade

2.5769

3.75

3.3333

3.5

1.7

cancer-stage

2.1538

3.25

1.3333

1.3

cancermetastasis

最后"

ClusteredInstances"

列出了各个簇中实例的数目及百分比:

三、根据提供的“data02”进行关联分析

山于程序和系统故障,所以不能正确的进行关联分析

实验

心得

通过木次数据挖掘实验,学习了数据挖掘的相关概念和知识,理解了数据挖掘的用途和使用步骤;

进一步学习了WEKA开源数据挖掘工具在数据挖掘学习中的使用方法。

并且对WEKA的分类与回归、聚类分析、关联规则、属性分析和可视化分析儿个模块化的基木分析方式进行了操作实验。

在此过程中学会了运用各个模块的分析方法。

由于是初次实验WEKA分析软件,对WEKA的运用和最终的数据结來运用还不熟悉,需要在以后的工作实验屮加以君重研究。

通过本次实验,也认识到了数据挖掘对人量的数据进行探索后,能揭示出其中隐藏着的规律性内容,并口由此进一步形成模型化的分析方法。

可以建立整体或某个业务过程局部的不同类型的模型,可以描述发展的现状和规律性,而且可以用来预测当条件变化后可能发生的状况。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2