鲁禹辰数据挖掘导论报告.docx

资源描述

鲁禹辰数据挖掘导论报告.docx

《鲁禹辰数据挖掘导论报告.docx》由会员分享，可在线阅读，更多相关《鲁禹辰数据挖掘导论报告.docx（14页珍藏版）》请在冰点文库上搜索。

鲁禹辰数据挖掘导论报告.docx

鲁禹辰数据挖掘导论报告

数据挖掘导论报告

姓名：

鲁禹辰

学院：

材化学院

专业：

材料科学与工程

班级：

033121

学号：

20121003889

一、上机操作

使用文件：

iris.arff

操作一：

数据离散化

打开文件，preprocess选项卡界面的显示情况如下：

现在进行数据离散化，在filter栏中点击choose按钮，选择filters/unsupervised/attribute/discretize,完成后点击apply按钮，得到离散化后的数据界面如下：

从图中可以看到数值型数据转变成了分类型数据。

以下为各项目下数据离散化后的柱状图

操作二：

数据分类

打开iris.arff文件，点击classify选项卡，界面如下：

在classifier栏中点击choose按钮，选择classifiers/tree/J48，点击choose按钮右侧的显示框，会弹出以下窗口：

在此对话框中可以调整J48分类器的各项参数，同时点击more按钮可以获得J48分类器的相关介绍信息。

现在进行分类策略为交叉验证的数据分类，点击上图对话框中的OK按钮，在testoptions栏中选择cross-validation,默认folds数为10，点击start按钮，在classifieroutput显示框中显示如下信息：

由图中信息可知，数据总量为150，其中有144个数据正确分类，正确率为96%，有6个数据分类错误，错误率为4%。

Kappa统计量为0.94，绝对差值为0.0489，均方根误差为0.1637，标准差为34.7274%。

之后右键点击resultlist栏目下的项目，选择visualizetree，可以得到数据分类后的树形图，选择visualizeclassifiererrors，可得散点图：

操作三：

数据聚类

打开iris.arff文件，点击cluster选项卡，界面如下：

在cluster栏中点击choose按钮，选择clusters/EM，点击choose按钮右侧的显示框，会弹出以下窗口：

点击上图OK按钮，clustermode栏默认选择usetrainingset,点击start按钮，在右侧clustereroutput栏框内会显示如下结果：

右键点击resultlist栏目下的项目，选择visualizeclusterassignments,可以得到可视化的散点图:

再次点击choose按钮右侧的显示框，更改弹出窗口中seed的数值，将其值由默认值100改为10，点击start按钮，右侧clustereroutput栏框内会显示更改后的结果：

对比以上两次运算结果，发现第一次结果中数据被处理为10类，运算得到的likelihood值为-6.72717，而第二次结果中数据被处理为5类，likelihood值变为-6.72762。

likelihood数值的绝对值越小，表明数据的拟合程度越好，通过不断地调节seed值可使运算结果向拟合度高的方向靠近，从而得出最佳的聚类方案。

操作四：

数据关联

打开iris.arff文件，在preprocess选项卡界面的filter栏中点击choose按钮，选择filters/unsupervised/attribute/discretize,完成后点击apply按钮，之后进入associate选项卡,点击associator栏的choose按钮，选择associations/Apriori,点击start，得到如下界面：

上图Associatoroutput显示框中的信息包含了运算之后得到的10条最佳的关联规则。

操作五：

数据算法对比

在weka软件的主界面选择experimenter按钮，在setup选项卡界面点击New按钮，在datasets栏中点击Addnew…按钮，导入iris.arff文件，在Algorithms栏中点击Addnew…按钮，在弹出的对话框中点击choose按钮，选择classifiers/trees/J48算法，点击OK按钮，继续选择classifiers/bayes/NaiveBayes算法，点击OK按钮。

现在点击进入run选项卡，点击start按钮，得到如下界面：

接着进入analyse选项卡，点击上方右侧experiment按钮，继续点击下方左侧performtest按钮，得到如下界面：

由图可知，结果显示J48算法的可信度为94.73%，NaiveBayes算法的可信度为95.53%。

二、专业联系

我的专业：

材料科学与工程

在材料科学与工程专业，数据挖掘方法在很多方面都有着巨大的帮助。

通用塑料和一般工程塑料因综合性能良好和价格适中在电子、电器、汽车、建材、日用品等领域得到广泛应用。

目前众多的塑料原料生产企业和塑料制品生产企业根据用户提出的产品用途和特殊性能要求，研发有针对性的制备工艺，以快速的市场反应，小批量、多品种的生产方式向市场提供不同品种、不同性能和具有价格竞争优势的滚合物共混材料。

按用户特定要求完成共馄材料配方和工艺的研究，即共混材料BOM的研究是企业降低成本的重要环节。

为适应市场竞争耍求，制备工艺研究有四个基本要求：

材料性能符合用户要求；工艺条件相对温和；制造成本较低和研发周期短。

为满足以上要求，运用较成熟的配方和工艺参数、性能指标和售后服务数据等，确定适当的研发方案和数据处理机制，以最少的实验次数、最快的时间和最低的研发成本达到用户要求。

其中数据挖掘技术是成功的关键。

数据挖掘技术原属统计学概念，是在无先前假说做验证的情况下探索数据的过程。

在计算机应用领域，数据挖掘技术可以认为是由数据、数据库及相关技术构成主体，在大量的甚至是离散化数据的荃础上，以发现其中落涵的朱知规律为目标的探索和分析过程。

自1995年第一届知识发现和数据挖掘国际会议在加拿大召开后，致据挖掘技术正成为机器学习、人工智能等领域内的热门研究方向。

同样，在高分子材料领域来自于科研、生产、应用等环节的数据快速增长，如何深人研究这些大且的数据，总结出具有普遍意义的规律，这不仅仅是理论研究的需要，同时对塑料原料及制品生产企业建立以市场摇求为导向，以性能、质量、效益为目标的知识管理也具有重要意义，数据挖掘技术在本领域的应用研究刚刚起步。

本文将重点讨论基于关联规则的数据挖掘技术在共混材料配方和工艺研究中的应用。

在高分子方面，以聚乙烯共混物及其硅烷接枝后的结晶性能为例，用纯聚乙烯共混物（PEB）、可交联硅烷接枝聚乙烯共混物（PEBX）和交联后的聚乙烯共混物（CPEBX）的结晶性能进行比较，研究退火工艺的影晌,验证并确定最佳的退火工艺条件。

实验中退火工艺采用热水在一定时间内进行水煮的方法，并在升温和降温过程中用PYRIS-1型示差扫描f热仪（DSC）测量温度热焙变化曲线，计算其结晶度。

以退火过程中的水温（T）和该温度下保持的时间（t）描述退火工艺，记为bm（T，t）。

全部的温度及时间构成退火工艺集B。

以结晶度、结晶温度范围、最大结晶沮度、融化及结晶热焙等指标综合反映材料的结晶性能，记为bm退火工艺条件下的性能集户，那么pm与bm之间存在着100%的支持率，记全部的结晶性能指标测试结果集P，那么退火工艺集B与结晶性能指标测试结果集P存在关联，其支持率以S（P）表示。

以可交联硅烷接枝聚乙始共混物（PEBX）需要达到的结晶性能各项指标为目标集Py，性能集Py与Pm之间的关联性以关联度C（y，m）表示。

如（6）式（7）式建立退火工艺对结晶性能的关联规则模型，并简化如下：

由于本应用实例是通过有限的数据采样，探索退火工艺与结晶度的关联，并确定在实验条件下退火工艺的最佳参数，所以Smin和Cmin均设定为0。

经过计算得出b（90℃，12h）工艺条件下，退火工艺与材料结晶性能具有强关联性。

退火过程，使材料进一步结晶，结晶度增加，虽然高温水煮过程会影响到材料分子链的规整性，对结晶性能有抑制性，但其影响远低于退火的增强作用。

Tab.1是三种材料的结晶性能用DSC方法的一组测量数据，其中CPEBX是用PEBX在b（90℃，12h）工艺条件下退火制备。

Tab.1CrystallizingPropertlesofPEB，PEBXandCPEBXformDSCtests

本例中由于实验的限制，数据量不大，计算过程效率较高，但共混材料制备工艺数据挖掘技术要真正成为实用的技术，在功能实现上必须保证对基础数据集遏历检索过程的高效率。

以香港某塑胶企业的应用为例，其实际数据库中有标准制备工艺60余万条，生产数据上千万条，在如此大量数据基础上实现高效率数据检索，需综合数据采集、查询、统计等多层面斋求，建立可行的索引策略与数据结构优化策略。

在实际应用中，目标性能集随市场需求动态产生。

由于对象的实际要求，目标性能集的内容不仅仅要列举性能指标，还应包括它们的目标取值，允许取值的最大值与最小值范围。

一般的数据挖掘算法对数值属性的问题常常是将其进行聚类操作与转为布尔型后简化，再以经典的挖掘技术进行处理，显然这不能满足对共混材料制备工艺的数据挖掘要求，必须建立能处理连续的、并基于趋势的算法模式。

实际应用中还经常有这样的情况，按输入的材料目标性能指标集及设定的支持率与关联度条件，初选配方子集或预选配方子集为空。

对此可降低支持率与关联度条件，但必须把握一定的量度，否则结果集会失去其物理意义。

对此系统提供了一定的智能机制，采用遗传算法，弱化关联度以获取能同样对实验研究产生指导意义的近似的共混材料制备工艺。

从以上几点可以看出，无论是国际最前沿，还是大学本科生，无论是总体实验室研究水平，还是刚刚入门的学生学习层面，都有着数据挖掘的影子，看来我所学的材料科学与工程专业确确实实与数据挖掘有着莫大的关系。

展开阅读全文