基于clementine的数据挖掘指导.doc

资源描述

基于clementine的数据挖掘指导.doc

《基于clementine的数据挖掘指导.doc》由会员分享，可在线阅读，更多相关《基于clementine的数据挖掘指导.doc（29页珍藏版）》请在冰点文库上搜索。

基于clementine的数据挖掘指导.doc

基于clementine的数据挖掘实验指导

clementine决策树分类模型 2

一．基于决策树模型进行分类的基本原理概念 2

二.范例说明 2

三.数据集说明 3

四.训练模型 3

五.测试模型 8

clementine线性回归模型 11

一. 回归分析的基本原理 11

二. 范例说明 11

三. 数据集说明 11

四. 训练模型 11

五. 测试模型 16

Clementine聚类分析模型 20

一.聚类分析的基本原理 20

二.范例说明 21

三.数据集说明 21

四.建立聚类模型 22

Clementine关联规则模型 27

一. 关联规则的基本原理 27

二. 范例说明 27

三. 数据集说明 28

四. 关联规则模型 29

clementine决策树分类模型

一．基于决策树模型进行分类的基本原理概念

分类就是：

分析输入数据，通过在训练集中的数据表现出来的特性，为每一个类找到一种准确的描述或者模型。

由此生成的类描述用来对未来的测试数据进行分类。

数据分类是一个两步过程:

第一步，建立一个模型,描述预定的数据类集或概念集；

第二步，使用模型进行分类。

clementine8.1中提供的回归方法有两种：

C5.0（C5.0决策树）和NeuralNet（神经网络）。

下面的例子主要基于C5.0决策树生成算法进行分类。

C5.0算法最早（20世纪50年代）的算法是亨特CLS（ConceptLearningSystem）提出，后经发展由JRQuinlan在1979年提出了著名的ID3算法，主要针对离散型属性数据；C4.5是ID3后来的改进算法，它在ID3基础上增加了：

对连续属性的离散化；C5.0是C4.5应用于大数据集上的分类算法，主要在执行效率和内存使用方面进行了改进。

优点：

在面对数据遗漏和输入字段很多的问题时非常稳健；通常不需要很长的训练次数进行估计；比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释；也提供强大的增强技术以提高分类的精度。

二.范例说明

该范例的背景是客户详细的个人投资计划作为一种市场营销活动的结果，snapshottrainN.db（训练数据）描述的是不同age（年龄），不同sex（性别），不同region（地域），不同income（收入），不同married（婚姻），等等的数据，通过分类算法对训练数据进行建模得到决策树模型，通过得到的决策树模型来判断测试数据集（snapshottestN.db）里面的每个记录的pep（个人投资计划）属性是yes还是no。

使用clementine建立流程图，如图1所示：

图1总流程图

三.数据集说明

数据集snapshottrainN.db，以下是该数据集的所有字段名：

•id.唯一的识别号

•age.年龄

•sex.性别

•region.地理位置

•income.收入

•merried.是否已婚

•children.有几个孩子

•car.是否有汽车

•save_act.是否有储蓄账户

•current_act.是否有活期存款

•mortgage.是否有抵押

•pep.是否有个人投资计划

四.训练模型

通过下面的操作，将完成如图2所示的流。

图2训练模型

（1）导入数据及预处理

插入一个变项文件节点（Source\Var.File），双击该节点，在File框输入snapshottrainN.db的物理路径，如图3所示：

图3输入节点

（2）变量类型的定义及实例化:

在建模之前，我们首先将一个类型节点TypeNode加到目前的流程中。

点击ReadValues以读取数据。

因为需要用年龄，性别，地区，收入等等为引数来估计个人投资计划，所以将id的Direction设为“None”，将pep设为“Out”，其他字段设为“In”。

如图4所示：

图4Type节点

（3）查看数据源

通过一个Table节点（Output\Table）与源数据连接，Excute（执行）Table结点即可，如图5所示：

图5Table节点

（4）用C5.0算法建立决策树模型

建立一个C5.0结点（Modeling\C5.0）与Type节点相连，如图6所示：

：

图6建模过程

双击C5.0结点可对其进行编辑，这里取其Modelname为默认值“Auto”（进入法），其他选项也不做修改，Excute（执行）该节点，如图7所示：

图7建模过程参数选择

（5）模型结果分析

执行C5.0结点即可得到判断pep取值的决策树模型，如图8所示：

图8查看模型

右键单击模型，单击Browse查看模型结果，如图9所示：

图9模型结果

将模型图标与Type节点相连，再添加一个“分析”节点，执行Analysis节点显示预测值和真实值的匹配程度如何的信息，如图10所示：

图10模型好坏分析

五.测试模型

现有新的数据snapshottestN.db，将建好的分类模型（pep）加入到流程中，并利用Analysis节点分析结果，如图11所示：

图11测试模型

（1）导入数据及预处理

与上面的方法相同，建立变项文件节点，选取源数据snapshottestN.db，如图12所示：

图12输入节点

预处理数据，与训练模型操作相同，如图13所示：

图13测试数据筛选

（2）查看数据源

通过一个Table节点（Output\Table）与源数据连接，Excute（执行）Table结点即可，如图14所示：

图14查看测试数据

（3）连接模型

将得到的回归模型加入到Type节点，如图15所示：

图15连接模型

双击C5.0结点可对其进行编辑，这里取其Modelname为默认值“Auto”（进入法），其他选项也不做修改，Excute（执行）该节点，如图16所示：

图16测试模型参数选择

（6）分析模型

将模型图标与Type节点相连，再添加一个“分析”节点，执行Analysis节点显示预测值和真实值的匹配程度如何的信息，如图17所示：

图17测试模型的分析结果

clementine线性回归模型

一.回归分析的基本原理

所谓回归分析法，就是在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量间的回归关系函数表达式，也称为回归方程，而其中最简单最基础的回归分析法就是线性回归分析。

clementine8.1中提供的回归方法有两种：

Regression和Logistic，其中clementine8.1中的Regression算法就是指线性回归模型。

下面的例子主要基于线性回归算法Regression算法，其主要思路如下.

回归节点用于生成线性回归模型。

这种模型可根据输入字段估计出用于预测输出字段的最佳拟合线性方程。

回归方程表示将预测输出值与实际输出值之间的平方差最小化的直线或平面。

这是用于数据汇总和进行预测的十分常见的统计技术。

要求：

只有数值型字段可用于回归模型。

必须只有一个“Out”字段和一个以上的“In”字段。

字段方向为“Both”或者“None”的字段将被忽略，同样被忽略的还有非数值型字段。

优点：

回归模型相对简单，并为生成的预测给出易于解释的数学方程。

由于回归建模是一个比较成熟的统计方法，回归模型的特点容易理解。

而且，回归模型训练起来也非常快。

回归节点提供自动选择字段的方法以删除方程中的不显著的输入字段。

二.范例说明

该范例的背景是关于农业发展贷款的申请，每一条记录描述的是一个农场对某种具体贷款类型的申请。

我们主要考虑两种贷款类型：

土地开发贷款（arable_dev）和退耕贷款（decommission_land）。

要解决的业务问题是：

根据农场类型和大小，找出那些申请贷款过多的农场。

三.数据集说明

数据集grantfraudN.db，以下是该数据集的所有字段名：

•id.唯一的识别字

•name.申请人名

•region.地理位置（midlands/north/southwest/southeast）

•farmsize整型—农场大小

•rainfall.整型—农场的年降雨量

•landquality.整型—农场主对土地质量的声明

•farmincome.实型—农场的年产量

•maincrop.主要作物（maize/wheat/potatoes/rapeseed）

•claimtype.申请贷款类（decommission_land/arable_dev）

•claimvalue.实型—申请贷款数额

我们可以使用Clementine建立一个回归模型，以农场大小、农场的年降雨量、土地质量和农场的收入为引数来估计农场申请贷款数额。

四.训练模型

通过下面的操作，将完成如下图所示的流。

图18要建立的流

（1）导入数据及预处理

插入一个变项文件节点（Source\Var.File），双击该节点，在File框输入grantfraudN-train.db的物理路径。

图19导入数据文件grantfraudN-train.db

（2）变量类型的定义及实例化

在建模之前，我们首先将一个类型节点TypeNode加到目前的流程中。

点击ReadValues以读取数据。

因为需要用农场大小、农场的年降雨量、土地质量和农场的收入为引数来估计农场申请贷款数额，所以将farmsize、rainfall、landquality、farmincome的Direction设为“In”，将claimvalue设为“Out”，其他字段设为“None”。

如下图所示：

图20添加并设置类型节点

（3）查看数据源

通过一个Table节点（Output\Table）与源数据连接，执行Table结点即可。

图21通过Table节点查看数据源

（4）建立Regression回归模型

建立一个Regression结点（Modeling\Regression）与Type节点相连：

图22建立Regression结点

双击Regression结点可对其进行编辑，这里取其Method为默认值“Enter”（进入法），其他选项也不做修改。

图23配置Regression结点

（5）模型结果分析

执行Regression结点即可得到回归模型。

图24右键单击模型查看模型结果

右键单击模型，单击Browse查看模型结果。

图25显示模型结果

结果显示模型的详细情况:

farmincome*0.3173+farmsize*-9.131+landquality*-724.2+rainfall*38.29+11587.4

将模型图标与Type节点相连，再添加一个“分析”节点，执行Analysis节点显示预测值和真实值的匹配程度如何的信息。

图26添加一个“分析”节点

图27显示所建立的模型与grantfraudN-train.db的比较结果

五.测试模型

现有新的数据grantfraudN-test.db，将建好的回归模型（claimvalue）加入到流程中，并利用Analysis节点分析结果。

图28要建立的流

（1）导入数据及预处理

与上面的方法相同，建立变项文件节点，选取源数据grantfraudN-test.db，

图29添加变项文件节点，导入数据文件

预处理数据，与训练模型操作相同。

图30添加Type节点并完成数据的预处理

（2）查看数据源

通过一个Table节点（Output\Table）与源数据连接，执行Table结点即可。

图31添加Table节点可查看数据源

（3）连接模型

将得到的回归模型加入到Type节点。

图32加入Regression模型

（4）分析模型

将模型图标与Type节点相连，再添加一个“分析”节点，执行Analysis节点显示预测值和真实值的匹配程度如何的信息。

图33加入“分析”结点

图34显示模型的比较结果

Clementine聚类分析模型

一.聚类分析的基本原理

聚类分析（clustering）就是根据相异度将数据对象分组成为多个类或簇（cluster），在同一类中的对象之间具有较高的相似度，而不同的类中的对象差别较大。

相异度是根据描述对象的属性值来计算的。

距离是经常使用的度量方式。

注意：

聚类是一种无指导的学习，不是示例式学习，而是观察式学习。

clementine8.1中提供的聚类分析方法有三种：

Kohonen、K-Means和Two-StepCluster，这里我们以K-Means建模为例。

K-Means聚类简介：

是Macqueen于1967年提出来的，又称快速聚类。

K是预先设定好的。

K-Means基本思想：

接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：

同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。

聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

K-Means算法流程：

首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数。

k个聚类具有以下特点：

各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

K-Means模型建立的要求：

要求一个以上的In字段，方向为Out、Both、None的字段将被忽略。

K-Means建模的优点：

不需要分组数据，对于大型数据量分群，常是最快的分类方法。

二.范例说明

该模型范例主要是根据收集的个人的一系列属性把人群进行聚类分析并分为k（这里取5）类的过程。

三.数据集说明

依据的数据集是snapshottrainN.db，以下是该数据集的总览及一系列属性的含义的说明：

图35数据集说明

•id.个人唯一的标识符

•age.个人年龄

•sex.个人性别

•region.个人居住地区（INNER_CITY城市/TOWN城镇/RURAL农村）

•income.个人收入

•married.个人婚姻状况

•children.个人子女状况

•car.个人有车否

•sav_act.个人是否存在存款历史

•current_act.个人是否被调查时仍有存款

•mortage.个人是否有抵押贷款

•pep.个人购买保险状况

我们可以使用Clementine建立一个K-Means聚类模型，以上述一系列属性值进行K-Means聚类,按预先设定把人群的分为K=5类。

四.建立聚类模型

（1）导入数据及预处理

插入一个变项文件节点（Source\Var.File），双击该节点，在File框输入snapshottrainN.db的物理路径。

图36源节点

（2）变量类型的定义及实例化

在建模之前，我们首先将一个类型节点TypeNode加到目前的流程中，点击ReadValues以读取数据。

因为聚类分析是根据所有字段来进行聚类分析，所以把所有字段在“Direction”项设为In即可，这是预处理过程。

在本类中可以看出id并不对分类结果造成影响，所以id设为None属性。

另外还有Both属性，即这个属性既作为In又作为Out项。

图37类型节点

（3）查看数据源

通过一个Table节点（Output\Table）与源数据连接，执行Table结点即可。

所得结果即是图35，目前数据流建立如图38所示。

图38查看源数据

（4）建立K-Means模型

1建立一个K-Means结点（Modeling\K-Means）与Type节点相连：

图395建立模型

双击K-Means结点可对其进行编辑，这里取Specifiednumberofclusters为“5”，即要分成几类，其他选项不做修改。

K-Means节点是算法节点，如图40所示。

图40K-Means节点参数设置

2执行K-Means结点即可得到K-Means模型。

执行后在右侧模型窗口单击模型节点，即可在流中添加模型节点K-MeansA，如图41所示。

图41添加模型节点

在右侧窗口右击模型节点选择Browse查看结果如图42所示：

每一类有多少条记录一目了然。

图42模型分析结果

（5）建立模型输出节点

图43模型输出节点

至此，K-Means模型已经建立完毕，右击源节点执行”Executefromhere”命令，即可得到源数据及聚类分析结果输出展示的窗口。

聚类分析结果如图44所示。

从图中可以看出id：

ID12101属于cluster-1，id：

ID12102属于cluster-4，属于哪一类在最右边￥KM-K-Means字段显示。

图44聚类结果

Clementine关联规则模型

一.关联规则的基本原理

所谓关联规则法，就是寻找在同一个事件中出现的不同项目的相关性，是发现交易数据库中不同商品之间的联系，这些规则找出顾客购买行为模式，如购买了某一商品对购买其它商品的影响。

发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。

关联规则的结果是一系列有意义的规则，它揭示了数据中蕴含的关联特征。

一般形式为：

X->Y，X称为前项，Y称为后项。

如：

面包->牛奶

支持度，前项X出现的可能性。

测度关联规则的普遍性，支持度太低，说明规则不具有一般性。

置信度，出现X的事务中出现Y的比例，是条件概率。

衡量规则的精确度，即可信度。

如：

IfXthenY则它的置信度是：

C=p（XandY）/p（X）=5%/15%=0.33

关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则，应找出那些可信且有代表性的规则。

同时满足最小支持度和最小置信度的规则称作强规则。

项的集合称为项集。

包含K个项的项集称为K-项集。

集合｛computer,financial_management_software｝是一个2-项集。

项集的出现频率是包含项集的事务数，简称为项集的频率、支持计数或计数。

项集满足最小支持度min_sup，如果项集的出现频率大于或等于min_sup与D中事务总数的乘积。

如果项集满足最小支持度，则称它为频繁项集。

频繁K-项集的集合通常记作Lk。

clementine8.1中提供的常用关联规则方法有两种：

Apriori和GRI。

Apriori算法是一种有效的关联规则挖掘算法，它逐级探查挖掘。

Apriori使用一种称作逐层搜索的迭代方法，K-项集用于探索（K+1）-项集。

首先，找出频繁1-项集的集合。

该集合记作合L1。

L1用于找频繁2-项集的集合L2，而L2用于找L3，如此下去，直到不能找到频繁K-项集。

找每个Lk需要一次数据库扫描。

要求：

要创建Apriori规则集，需要一个以上的In字段和一个以上的Out字段。

In字段和Out字段必须为字符型字段。

方向为None的字段将被忽略。

在执行节点前，字段类型必须被充分实例化。

优点：

对于大型问题，Apriori通常比GRI训练得快。

Apriori对可保留规则数量没有专门的限制，可以处理有多达32个前提的规则。

Apriori提供五种训练方法，在使数据挖掘方法配合可能出现的问题方面有更大的灵活性。

二.范例说明

该范例的背景是关于超市购物清单的记录，每一条记录描述的是一个客户在超市购买的货物。

我们主要考虑购买货物之间的内在联系。

要解决的业务问题是：

根据所买东西的类型，找出哪些东西存在内在的相互关联的关系。

比如：

一般买啤酒的人会一起买鲜肉。

下图为clementine关联规则Apriori模型图

图45Apriori模型图

三.数据集说明

数据集BASKETS1n.db，以下是该数据集的所有字段名：

•cardid.卡号

•value.消费额

•pmothed.付款方式

•sex.性别

•income.收入

•homeown.是否是户主

•age.年龄

•fruitveg.水果蔬菜

•freshmeat.鲜肉

•drairy.日用品

•cannedveg.罐装蔬菜

•cannedmeat.罐装肉

•frozenmeal.冷冻餐

•Beer.啤酒

•Wine.白酒

•Softdrink.软饮料

•Fish.鱼

•Softdrink.软饮料

•confectionery.糖果

我们可以使用Clementine建立一个相关规则模型，以最小支持度和最小置信度来估计商场各种商品之间存在的相关联性。

四.关联规则模型

（1）.导入数据及预处理

插入一个变项文件节点（Source\Var.File），双击该节点，在File框输入BASKETS1n.db的物理路径。

图46源节点

（2）.变量类型的定义及实例化

在建模之前，我们首先将一个类型节点TypeNode加到目前的流程中。

点击ReadValues以读取数据。

因为需要用性别、是否为户主、消费类型和购买的各种物品来估计客户在超市购买物品的相关联性，所以将所需要字段设为“Both”，其他字段设为“None”。

如下图：

图47类型节点

（3）.查看数据源

通过一个Table节点（Output\Table）与源数据连接，执行Table结点即可。

通过此表可以清晰的查看表中的数据。

图48查看源数据

（4）.建立Apriori回归模型

建立一个Apriori结点（Modeling\Apriori）与Type节点相连：

图49建立模型

双击Apriori结点可对其进行编辑，这里最小支持度（Minimumrulesupport）和最小置信度（Minimumruleconfidence）分别设置为10.0和80.0，其他选项也不做修改。

图50Apriori节点参数设置

模型名称（Modeln

展开阅读全文