数据挖掘实训报告.docx

资源描述

数据挖掘实训报告.docx

《数据挖掘实训报告.docx》由会员分享，可在线阅读，更多相关《数据挖掘实训报告.docx（13页珍藏版）》请在冰点文库上搜索。

数据挖掘实训报告.docx

数据挖掘实训报告

项目1：

基于sklearn的数据分类挖掘

一、项目任务

①熟悉sklearn数据挖掘的大体功能。

②进行用朴素贝叶斯、KNN、决策树、SVM算法进行数据分类分析。

二、项目环境及条件

三、实验数据

Iris数据集

Iris数据集是经常使用的分类实验数据集，由Fisher,1936搜集整理。

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。

数据集包括150个数据集，分为3类，每类50个数据，每一个数据包括4个属性。

可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

Digits数据集

美国闻名数据集NIST的子集，模式识别经常使用实验数据集，图像属于灰度图像。

分辨率为8x8

四、项目内容及进程

1.读取数据集

从sklearn中读取iris和digits数据集并测试打印

fromsklearnimportdatasets

iris=（）

digits=（）

print'iris:

',,'\ndigits:

打印的数据集存在中，ndarray会自动省略较长矩阵的中间部份。

Iris数据集的样本数据为其花瓣的各项属性

Digits数据集的样本数据为手写数字图像的像素值

2.划分数据集

引入sklearn的model_selection利用train_test_split划分digits数据集，训练集和测试集比例为8:

fromimporttrain_test_split

x_train,x_test,y_train,y_test=train_test_split,,test_size=

print'x_train:

',x_train,'\nx_test:

',x_test,'\ny_train:

',y_train,'\ny_test:

',y_test

3.利用KNN和SVM对digits测试集分类

引用sklearn的和模块挪用算法，利用classification_report查看预测结果的准确率和召回率

fromimportclassification_report

fromsklearnimportneighbors

clf=（）

（x_train,y_train）

y_pred=（x_test）

printclassification_report（y_test,y_pred）

fromimportSVC

clf=SVC（）

（x_train,y_train）

y_pred=（x_test）

printclassification_report（y_test,y_pred）

KNN的预测结果：

所有数字的预测正确率几乎达到了100%

SVM的预测结果：

对部份数字的预测误差较大，大体情形不如KNN

考虑SVM分类器的特性，在分类前对特点值进行标准化后再分类：

fromsklearnimportpreprocessing

min_max_scaler=（）

x_train=（x_train）

x_test=（x_test）

标准化数据后SVM的预测结果达到了KNN的准度：

4.利用贝叶斯和决策树对iris数据集分类

fromimporttrain_test_split

x_train,x_test,y_train,y_test=train_test_split,,test_size=

fromimportclassification_report

fromsklearnimportnaive_bayes

clf=（）

（x_train,y_train）

y_pred=（x_test）

printclassification_report（y_test,y_pred）

fromsklearnimporttree

clf=（）

（x_train,y_train）

y_pred=（x_test）

printclassification_report（y_test,y_pred）

决策树和贝叶斯都有较好的分类成效

五、实验结果分析

什么缘故用svm和knn处置digits数据集，用tree和bayes处置iris数据集，这是一个体会问题。

咱们都明白digits数据集的每一个特点确实是像素点的像素值，他们的维度都是在0~255之内；像素点之间的维度完全一致，相互没有优先级。

这种情形下利用线性分类器如KNN、SVM、Logistic会有更好的成效。

而iris数据集尽管长度和宽度维度差不多相同，可是二者之间有优先级的区分，依照人脑分类的思维方式可能是先依照长度判定再依照宽度等思维方式，很接近决策树的算法原理，贝叶斯一样。

因此概率性分类器有更好的成效。

实际情形也是利用SVM预测iris的结果和Bayes预测digits的结果不甚理想（尽管也有很高的准度了）。

固然，通过调整分类器的参数，能使各个分类器的预测结果都达到中意结果，综合表现仍是KNN更抢眼，能在各类数据集眼前都有超卓表现，但KNN在训练样本数量达到必然程度后，有超高的计算复杂度。

因此面对实际情形，选用什么分类器，如何调剂参数都是值得沉思的问题。

项目2：

基于sklearn的数据聚类挖掘

一、实验任务

①熟悉sklearn数据挖掘平台的大体功能。

②用K-Means进行数据聚类分析。

二、实验环境及条件

三、实验数据

随机产生的100个坐标点，范围为[0,100]

四、实验内容及进程

1.随机产生坐标值

产生的随机值在0-100，因为sklearn的k-means模块要求输入的坐标形式为[[x0,y0],…,[x…,y…],…,[xn,yn]],而实际产生的是[x0,…,xn]和[y0,…,yn]，因此还需要对坐标进行一次转换

fromimportKMeans

importnumpyasnp

importasplt

importrandom

defcreate_coordinate（）:

x,y=[],[]

foriinrange（100）:

（0,100））

returnx,y

x,y=create_coordinate（）

old_coordinate=[[x[i],y[i]]foriinrange（100）]

coordinate=（old_coordinate）

printold_coordinate

产生的随机坐标值：

2.创建做图函数

利用k-means对坐标点分为3类，对0类标为红色，1类标为绿色，2类标为蓝色。

并将三类坐标的中心点以‘*’表示在图中

defcreate_chart（x,y,label,center）:

x_0=[x[i]foriinrange（len（x））iflabel[i]==0]

x_1=[x[i]foriinrange（len（x））iflabel[i]==1]

x_2=[x[i]foriinrange（len（x））iflabel[i]==2]

y_0=[y[i]foriinrange（len（y））iflabel[i]==0]

y_1=[y[i]foriinrange（len（y））iflabel[i]==1]

y_2=[y[i]foriinrange（len（y））iflabel[i]==2]

（x_0,y_0,c='r'）

（x_1,y_1,c='g'）

（x_2,y_2,c='b'）

（[i[0]foriincenter],[i[1]foriincenter],c='m',s=600,marker='*'）

（）

3.利用k-means聚类并预测新增点的类别

kmeans=KMeans（n_clusters=3,random_state=0）.fit（coordinate）

print（[[0,0],[50,50],[100,100]]）

create_chart（x,y,,

对新点的预测：

221

点的聚类情形：

五、实验结果分析

这次实验，利用sklearn的k-means对100个坐标点聚类。

K-means因为其本身算法的缘故，点数越多聚类速度越慢。

因此在20个点和100个点的聚类时刻上有专门大差距。

聚类问题不同于分类问题，没有明确的预测和分类结果，聚类时对数据的边界可能会各不相同，聚类问题在用户画像/个性化推荐等应用上有较好地发挥。

实验3：

在Python程序中引用sklearn

一、实验任务

①用Python开发一个综合部份挖掘算法的演示程序，核心算法来自sklearn类库。

②演示程序界面友好。

二、实验环境及条件

三、实验数据

Iris数据集

Iris数据集是经常使用的分类实验数据集，由Fisher,1936搜集整理。

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。

数据集包括150个数据集，分为3类，每类50个数据，每一个数据包括4个属性。

可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

Digits数据集

美国闻名数据集NIST的子集，模式识别经常使用实验数据集，图像属于灰度图像。

分辨率为8x8

四、实验内容及进程

利用PyQt4创建windows窗体，并提供可选择的分类方式：

ØSVM——支持向量机算法

ØKNN——K临近算法

ØBayes——朴素贝叶斯算法

ØTree——决策树算法

ØLogistic——Logistic回归算法

可选择的归一化方式：

ØStandard-标准归一化

ØMaxAndMin-最大最小归一化

可选择的验证比例

Ø可选范围——（0,1）

可调剂的分类器参数

Ø依照具体分类器设置参数

部份代码

Ø确认按钮响应事件

defOKPushButton_OnClick（self）:

data_name=classify_name=normalization_name=parameter_string=validation_string=y_test,y_pred=（data_name,classify_name,normalization_name,parameter_string,validation_string）

fromimportclassification_report

y_pred））

Ø分类算法执行

defload_datasets_and_classify\

（self,data_name,classify_name,normalization_name,parameter_string,validation_string）:

fromsklearnimportdatasets

fromimporttrain_test_split

rate=

ifvalidation_string!

='':

try:

rate=float（validation_string）

except:

（u"输入的数值必须是0~1的浮点数"）

return

ifdata_name=='iris':

origin_data=（）

elifdata_name=='digits':

origin_data=（）

else:

（u"未知数据集"）

return

data=

target=

ifnormalization_name=='standard':

fromsklearnimportpreprocessing

scaler=（）.fit（x_train）

（x_train）

（x_test）

elifnormalization_name=='max_min':

fromsklearnimportpreprocessing

min_max_scaler=（）

x_train=（x_train）

x_test=（x_test）

elifnormalization_name=='none':

pass

else:

（u"未知归一化方式"）

return

Ø程序演示结果

五、实验结果分析

利用PyQt4创建windows窗体，然后结合实验1和2的部份代码生成代码演示程序。

说句实话，不太清楚那个实验到底要干吗，为了给演示程序的界面添加控件就花了很多时刻，算是学习到如何利用python创建windows应用程序了。

展开阅读全文