关联规则挖掘.docx

资源描述

关联规则挖掘.docx

《关联规则挖掘.docx》由会员分享，可在线阅读，更多相关《关联规则挖掘.docx（7页珍藏版）》请在冰点文库上搜索。

关联规则挖掘.docx

关联规则挖掘

数据挖掘的其他基本功能介绍

一、关联规则挖掘

关联规则挖掘是挖掘数据库中和指标（项）之间有趣的关联规则或相关关系。

关联规则挖掘具有很多应用领域，如一些研究者发现，超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。

1、基本概念

设

是项组合的记录，D为项组合的一个集合。

如超市的每一张购物小票为一个项的组合（一个维数很大的记录），而超市一段时间内的购物记录就形成集合D。

我们现在关心这样一个问题，组合中项的出现之间是否存在一定的规则，如A游泳衣，B太阳镜，

，但是

得不到足够支持。

在规则挖掘中涉及到两个重要的指标：

、支持度

支持度

，显然，只有支持度较大的规则才是较有价值的规则。

、置信度

置信度

，显然只有置信度比较高的规则才是比较可靠的规则。

因此，只有支持度与置信度均较大的规则才是比较有价值的规则。

、一般地，关联规则可以提供给我们许多有价值的信息，在关联规则挖掘时，往往需要事先指定最小支持度与最小置信度。

关联规则挖掘实际上真正体现了数据中的知识发现。

如果一个规则满足最小支持度，则称这个规则是一个频繁规则；

如果一个规则同时满足最小支持度与最小置信度，则通常称这个规则是一个强规则。

关联规则挖掘的通常方法是：

首先挖掘出所有的频繁规则，再从得到的频繁规则中挖掘强规则。

在少量数据中进行规则挖掘我们可以采用采用简单的编程方法，而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。

关联规则挖掘可以使我们得到一些原来我们所不知道的知识。

应用的例子：

*日本超市对交易数据库进行关联规则挖掘，发现规则：

尿片→啤酒，重新安排啤酒柜台位置，销量上升75%。

*英国超市的例子：

大额消费者与某种乳酪。

那么，证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则，这些关联规则究竟说明了什么？

关联规则挖掘通常比较适用与记录中的指标取离散值的情况，如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化（实际上就是将某个区间的值对应于某个值），数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。

参考文献1

二、特征化与比较

1、特征化是一种描述性数据挖掘，特征化通过数据挖掘的方法提供给定数据汇集的简洁汇总，如银行优质客户的特征，从而发现潜在的优质客户；转向其他银行的优质客户的特征，从而设法留住可能会转向其他银行的优质客户，特征化在银行客户关系管理等领域具有很大作用。

描述性数据挖掘——特征化的基本原理

、属性删除

某一类的特征化就是找出某一类的共性，因此如果某个属性具有大量不同的值，而且每个值所占的比率都不能达到事先给定的临界值，同时在这个属性上没有概化操作符（指标上卷），则数据挖掘对其进行属性删除。

、属性概化

如果在属性上存在概化操作符，并且原属性取值没有达到事先给定的临界值，则数据挖掘就将这个属性概化到较高层次，即使原属性取值已经达到临界值，数据挖掘也可以继续进行属性概化。

通过属性删除和属性概化，可以得到特征化的数据挖掘。

2、比较

特征化是给定某一类样本的特征，而比较则是区分不同的类，比较又通常称为挖掘类比较。

如信用卡诈骗者和非诈骗者，这两类信用卡持有者的比较。

类比较通常是一个指定的类与一个其它的类、或者几个其它的类进行比较，类比较的基本方法是：

首先在目标类上发觉特征，然后在对比类上进行同步概化，这样就可以挖掘类比较。

特征化与类比较具有很广泛的应用领域。

如：

被外资并构公司与没有被外资并构公司进行类比较；不同审计意见的公司的类比较；信用卡诈骗与非诈骗类的比较；银行优质客户中忠诚客户与转向其他银行的原优质客户的比较；等等。

参考文献2

三、聚类分析

聚类分析就是根据样本之间的相似程度，将样本分成几个不同的类。

如我国各城市社会经济发展程度的聚类分析，利用聚类分析研究我国女子成衣的尺寸标准。

原来测量了成年女子14个部位的指标数据：

上体长、手臂长、胸围、颈围、总肩宽、前胸宽、后背宽、前腰节高、后腰节高、总体长、身高、下体长、腰围、臀围。

经过聚类分析发现可以聚集为几类，每类主要在反映身高与反映胖瘦上有所区别，这样就可以制定几种标准尺寸，可以照顾到我国绝大多数成年女子的购衣要求。

聚类分析在金融领域中有广泛应用，如根据股票价格的波动情况，可以将股票分成不同的类，总共可以分成几类，各类包含哪些股票，每一类的特征是什么，这对投资者、尤其对投资基金来说，可能就是很重要的信息。

聚类分析也是分类，但是要划分的类是未知的，这是聚类分析与一般判别分析的区别。

聚类分析的基本原理

1、样本间距离的度量

距离采用绝对值距离、欧氏距离、切比雪夫距离等，其中：

，利用距离可以度量不同样本之间的相似程度，在测量距离时，往往首先需要进行标准化变换，以消除量纲带来的影响。

当指标为非数值指标时，

2、相似程度的测量

最短距离法是测量相似程度的一种方法，利用最短距离法进行聚类分析的基本过程。

采用测量相似程度的不同方法，所得到的聚类分析结果可能有所不同。

在聚类分析中，希望得到的类数可以事先确定。

聚类分析即可以对样本进行聚类，也可以对指标进行聚类，因此可以采用这样的思路来考虑建立借款人违约概率预测模型。

参考文献3

数据挖掘的进一步案例：

决策树与客户细分、客户关系管理

近年来，数据挖掘成为一些企业进行客户关系管理的有力工具。

比如，企业可以通过数据挖掘方式进行客户细分，从而进行更加行之有效的客户关系管理；又比如，发现潜在的优质客户、发现可能转向竞争对手的优质客户等。

数据挖掘中有多种方法可用于客户细分与客户关系管理，决策树方法是其中之一，下面对此进行介绍。

案例1：

如何发现潜在的优质客户？

基本思路：

对已确定客户性质的银行客户数据，利用数据挖掘中的决策树方法可以进行优质客户细分（代表优质客户的每片叶子实际上就是优质客户的一种细分），即发现分别具有什么特征的客户会成为银行的优质客户，将这些特征与新客户相对照，可以从新客户中发觉出潜在的优质客户。

具体数据挖掘（略）

案例2：

可能转向竞争对手的客户有哪些特征，从而需要有针对性地开展工作。

案例3：

对贷款违约者的细分

其它方面的应用例子：

不按照医嘱服药（没有服完疗程）的患者细分

*一类患者认为如果过多服药会产生抗药性，这会使得他们真正需要服用药物时不再那么有用，因此病情稍有好转就停止服药；

*一类患者根本不相信药物是安全无害的，因此他们只服用使他们的症状减轻的剂量，当他们感觉好些了就马上停止服药。

*。

。

数据挖掘的评分（评级）系统及其应用

使用数据挖掘方法建立预测模型后，就可以用它来预测新的数据。

通常情况下，一个好的模型会被使用许多次，也可以用于对不同的数据集评分。

从而满足应用的需要。

案例：

基于新资本协议框架的银行内部评级系统构建

数据库：

某银行客户借贷的原始记录数据库，包含数于千计的客户信息记录：

是否违约（必要时需参照新资本协议的参考定义调整分类）、申请贷款时的企业的财务指标值和其他变量指标值。

构建方案1：

步骤如下：

1、数据整理；

2、指标的聚类分析，通过SAS软件实现；

3、各指标预测借款企业违约的信息含量测定——信号、噪音差分析方法，通过数据挖掘软件实现；

4、预测指标的选取和原始指标到信号指标的转换；

5、基于信号数和信号预测能力的银行内部评级体系构建，按照新资本协议要求的等级数构建；

6、确定各信用等级借款人的违约概率估计值（可以频率作为概率的估计值）；

7、参照巴塞尔协议对VaR模型检验的“三重区域”法检验对各信用等级借款人违约概率估计的准确性。

8、确定银行内部信用评级体系，确定各信用等级借款人的违约率估计值。

9、需要划分训练样本组与检验样本组。

构建方案2：

步骤如下：

1、数据整理；

2、指标的聚类分析，通过SAS软件实现；

3、各指标预测借款企业违约的信息含量测定——信号、噪音差分析方法，通过数据挖掘软件实现；

4、预测指标的选取和原始指标到信号指标的转换；

5、利用决策数方法进行借款人信用等级细分；

6、适当合并细分的信用等级，建立银行内部信用评级体系；

7、确定各信用等级借款人的违约概率估计值（可以频率作为概率的估计值）；

8、参照巴塞尔协议对VaR模型检验的“三重区域”法检验对各信用等级借款人违约概率估计的准确性。

9、确定银行内部信用评级体系，确定各信用等级借款人的违约率估计值。

10、需要划分训练样本组与检验样本组。

构建方案3：

步骤如下：

1、数据整理；

2、指标的聚类分析，通过SAS软件实现；

3、各指标预测借款企业违约的信息含量测定——信号、噪音差分析方法，通过数据挖掘软件实现；

4、预测指标的选取和原始指标到信号指标的转换；

5、利用Logistic回归或Probit过程建立借款人违约概率预测模型；

6、基于模型给出的违约概率大小建立银行内部信用评级体系；

7、确定各信用等级借款人的违约概率估计值（可以频率作为概率的估计值）；

8、参照巴塞尔协议对VaR模型检验的“三重区域”法检验对各信用等级借款人违约概率估计的准确性。

9、确定银行内部信用评级体系，确定各信用等级借款人的违约率估计值。

10、需要划分训练样本组与检验样本组。

展开阅读全文