商务智能与数据挖掘实验报告Word文档下载推荐.docx

资源描述

商务智能与数据挖掘实验报告Word文档下载推荐.docx

《商务智能与数据挖掘实验报告Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《商务智能与数据挖掘实验报告Word文档下载推荐.docx（12页珍藏版）》请在冰点文库上搜索。

商务智能与数据挖掘实验报告Word文档下载推荐.docx

实验内容及实验结果

一、对“data（）2”进行分类分析

1.数据格式的转换

⑴打开“data02.xls”另存为CSV类型，得到“da（aO2.csv”。

S）dataO2・csv

⑵在WEKA中提供了一个“ArffViewer”模块，打开一个“data02.csv”进行浏览，然后另存为ARFF文件，得到"

dataO2.arff"

。

data02.arff

2.分类过程

（1）决策树分类

用“Explorer”打开数据“data02.arff”，然后切换到“Class辻y”。

点击“Choose”，选择算法"

trces-J48”，再在"

Testoptions"

选择uCross-validation（Flods=10）^,点击“Start”，开始运行。

训练结果：

系统默认trees-J48决策树算法中minNumObj=2,得到如下结果

==Summary==

Precision

RecallF-Mcasurc

ROCArea

Class

0.824

0.903

0.892

（）.75

0.857

0.913

0.885

0.887

TPRate

==DetailedAccuracyByClass===

WeightedAvg.0.885=ConfusionMatrix===

—classifiedas

a=N

b=Y

使帀不同的参数准确率比较:

minNumObj

Correctly

Classified

Instances

（8&

4615%）

（84.6154%）

（88.4615%）

由上表，可知minNumObj为2时，准确率最高。

根据测试数集，利用准确率最高的模型得到的结果:

［制WekaClassifierTreeVisualizer:

11:

22:

13・trees.J48（旳帖02）［u>

］回j

TreeView

分析说明：

在用J48对数据集进行分类时采用了10折交叉验证（Folds=10）来选择和评估模型，其中属性值有两个Y,No一部分结果如下：

CorrectlyClassifiedInstances2388.4615%

IncorrectlyClassifiedInstances311.5385%

===ConfusionMatrix==

ab<

—classifiedas

1431a=N

091b=Y

这个矩阵是说，原来是“Y”的实例，有14个被止确的预测为“Y”,有3个错误的预测成了原本是“NO”葩实例有0个被止确的预测成为“Y”，有9个正确的预测成了“N”。

“14+3+0+9=26”是实例的总数，而（14+9）/26=0.884615正好是正确分类的实例所占比例。

这个矩阵对角线上的数字越大，说明预测得越好。

（2）K最近邻分类算法

用“Explorer”打开数据“data02.arff”,然后切换至『Classify”。

点击“Choose”,选择算法“lazy-IBk”,再在"

Testoptionsw选择wCross-validation（Flods=10）"

点击"

Start"

开始运行。

系统默认lazy-IBkK最近邻分类算法中KNN=1,得到如下结果

—Summary—

CorrectlyClassifiedInstances

76.9231%

IncorrectlyClassifiedInstances

23.0769%

Kappastatistic

0.4902

Meanabsoluteerror

0.252

Rootmeansquarederror

0.4626

Relativeabsoluteerror

54.9136%

Rootrelativesquarederror

96.694%

Status,、、

OK[3」M0

TotalNumberofInstances26

=—De:

ailedAccuracyByClass===

FPRate

Recall

F-Measure

0.824

0.333

0.768

0.667

0.176

WeightedAvg.0.769

0.279

0.769

==ConfusionMatrix==

--classifiedas

143|a=N

36|b=Y

使用不同的参数准确率比较:

KNN

（76.9231%）

（73.0769%）

由上表，可知KNN为3时，准确率最高。

根据测试数集，利用准确率最高的模型得到的结果:

Classcolour

在用lazy-Ibk（KNN=3）对数据集进行分类时采用了10折交义验证（Folds=10）来选择和评佔模型，其中属性值有两个Y,No一部分结果如下：

===Summary==

===ConfusionMatrix=====

―classifiedas

161a=N

27|b=Y

这个矩阵是说，原来是“Y”的实例，有16个被正确的预测为“Y”,有1个错误的预测成了“N”。

原本是“NO”的实例有2个被正确的预测成为“Y”，有9个正确的预测成了“7”。

“16+1+2+7=26”是实例的总数，而（16+7）726=（）.884615正好是正确分类的实例所占比例。

二.对“dataOl”进行聚类分析

数据咯式的转换

⑴打开“dataO1.xls"

另存为CSV类型,得到“dataOl.csv”。

⑵在WEKA中提供了一个“ArtTViewer”模块，打开一个udataOl.csv”进行浏览，然后另存为ARFF

文件，得到“dataOl.arff”。

OdataOl.arff

2.聚类过程

用“Explorer”打开数据“dataOl.arff”，然后切换到“Cluster”。

点击“Choose”,选择算法"

SimpleKMeans（numClusters=6,seed=200）,再在“Testoptionsn选择"

Usetrainingset”,点击“Start”，开始运行。

训练结果:

StatusOK

采用simpleKMcans算法，其中numClusters=6,seed=100,得到如下结果:

Numberofiterations:

Withinclustersumofsquarederrors:

6.065322314450069（平方误差之和）

ClusteredInstances

04（15%）

13（12%）

24（15%）

33（12%）

42（8%）

510（38%）（各类的包含的实例个数以及占总实例的百分比）

cluaterOclusterl.clusters

|4>

]WekaClustererVisualize:

13:

44・SimpleKMeans（data32）[o|回j

InstancjnumberQlwn）

▼

jl：

Cluster（Horn）

卜

Colour：

Cluster（Hom）

SelectInstance

说明：

其中当seed的取值越大，平方误差之和越小。

在这次实验seed=l（X）,得到：

6.065322314450069.这是评价聚类好坏的标准，数值越小说明同一簇实例之间的距离就越小。

接卜■来“Clustercentroids”：

列出了各个簇中心的位置：

Attribute

FullData

（26）

（4）

（3）

（2）

（10）

sample

13.5

22.5

4.6667

20.5

14.6667

4.5

11.2

old-year

48.0769

65.75

593333

50.5

56.5

41.9

VEGF

1.9231

2.75

2.3333

2.6667

MVC

102.1538

126.45

100.6667

127.4

88.2667

104

86.58

cancer-grade

2.5769

3.75

3.3333

3.5

1.7

cancer-stage

2.1538

3.25

1.3333

1.3

cancermetastasis

最后"

ClusteredInstances"

列出了各个簇中实例的数目及百分比:

三、根据提供的“data02”进行关联分析

山于程序和系统故障，所以不能正确的进行关联分析

实验

心得

通过木次数据挖掘实验，学习了数据挖掘的相关概念和知识，理解了数据挖掘的用途和使用步骤；

进一步学习了WEKA开源数据挖掘工具在数据挖掘学习中的使用方法。

并且对WEKA的分类与回归、聚类分析、关联规则、属性分析和可视化分析儿个模块化的基木分析方式进行了操作实验。

在此过程中学会了运用各个模块的分析方法。

由于是初次实验WEKA分析软件，对WEKA的运用和最终的数据结來运用还不熟悉，需要在以后的工作实验屮加以君重研究。

通过本次实验，也认识到了数据挖掘对人量的数据进行探索后，能揭示出其中隐藏着的规律性内容，并口由此进一步形成模型化的分析方法。

可以建立整体或某个业务过程局部的不同类型的模型，可以描述发展的现状和规律性，而且可以用来预测当条件变化后可能发生的状况。

展开阅读全文