关联规则挖掘.docx

上传人:b****3 文档编号:3948665 上传时间:2023-05-06 格式:DOCX 页数:7 大小:29.25KB
下载 相关 举报
关联规则挖掘.docx_第1页
第1页 / 共7页
关联规则挖掘.docx_第2页
第2页 / 共7页
关联规则挖掘.docx_第3页
第3页 / 共7页
关联规则挖掘.docx_第4页
第4页 / 共7页
关联规则挖掘.docx_第5页
第5页 / 共7页
关联规则挖掘.docx_第6页
第6页 / 共7页
关联规则挖掘.docx_第7页
第7页 / 共7页
亲,该文档总共7页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

关联规则挖掘.docx

《关联规则挖掘.docx》由会员分享,可在线阅读,更多相关《关联规则挖掘.docx(7页珍藏版)》请在冰点文库上搜索。

关联规则挖掘.docx

关联规则挖掘

数据挖掘的其他基本功能介绍

一、关联规则挖掘

关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。

关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。

1、基本概念

是项组合的记录,D为项组合的一个集合。

如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合D。

我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如A游泳衣,B太阳镜,

,但是

得不到足够支持。

在规则挖掘中涉及到两个重要的指标:

、支持度

支持度

,显然,只有支持度较大的规则才是较有价值的规则。

、置信度

置信度

,显然只有置信度比较高的规则才是比较可靠的规则。

因此,只有支持度与置信度均较大的规则才是比较有价值的规则。

、一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。

关联规则挖掘实际上真正体现了数据中的知识发现。

如果一个规则满足最小支持度,则称这个规则是一个频繁规则;

如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。

关联规则挖掘的通常方法是:

首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。

在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。

关联规则挖掘可以使我们得到一些原来我们所不知道的知识。

应用的例子:

*日本超市对交易数据库进行关联规则挖掘,发现规则:

尿片→啤酒,重新安排啤酒柜台位置,销量上升75%。

*英国超市的例子:

大额消费者与某种乳酪。

那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?

关联规则挖掘通常比较适用与记录中的指标取离散值的情况,如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。

参考文献1

二、特征化与比较

1、特征化是一种描述性数据挖掘,特征化通过数据挖掘的方法提供给定数据汇集的简洁汇总,如银行优质客户的特征,从而发现潜在的优质客户;转向其他银行的优质客户的特征,从而设法留住可能会转向其他银行的优质客户,特征化在银行客户关系管理等领域具有很大作用。

描述性数据挖掘——特征化的基本原理

、属性删除

某一类的特征化就是找出某一类的共性,因此如果某个属性具有大量不同的值,而且每个值所占的比率都不能达到事先给定的临界值,同时在这个属性上没有概化操作符(指标上卷),则数据挖掘对其进行属性删除。

、属性概化

如果在属性上存在概化操作符,并且原属性取值没有达到事先给定的临界值,则数据挖掘就将这个属性概化到较高层次,即使原属性取值已经达到临界值,数据挖掘也可以继续进行属性概化。

通过属性删除和属性概化,可以得到特征化的数据挖掘。

2、比较

特征化是给定某一类样本的特征,而比较则是区分不同的类,比较又通常称为挖掘类比较。

如信用卡诈骗者和非诈骗者,这两类信用卡持有者的比较。

类比较通常是一个指定的类与一个其它的类、或者几个其它的类进行比较,类比较的基本方法是:

首先在目标类上发觉特征,然后在对比类上进行同步概化,这样就可以挖掘类比较。

特征化与类比较具有很广泛的应用领域。

如:

被外资并构公司与没有被外资并构公司进行类比较;不同审计意见的公司的类比较;信用卡诈骗与非诈骗类的比较;银行优质客户中忠诚客户与转向其他银行的原优质客户的比较;等等。

参考文献2

三、聚类分析

聚类分析就是根据样本之间的相似程度,将样本分成几个不同的类。

如我国各城市社会经济发展程度的聚类分析,利用聚类分析研究我国女子成衣的尺寸标准。

原来测量了成年女子14个部位的指标数据:

上体长、手臂长、胸围、颈围、总肩宽、前胸宽、后背宽、前腰节高、后腰节高、总体长、身高、下体长、腰围、臀围。

经过聚类分析发现可以聚集为几类,每类主要在反映身高与反映胖瘦上有所区别,这样就可以制定几种标准尺寸,可以照顾到我国绝大多数成年女子的购衣要求。

聚类分析在金融领域中有广泛应用,如根据股票价格的波动情况,可以将股票分成不同的类,总共可以分成几类,各类包含哪些股票,每一类的特征是什么,这对投资者、尤其对投资基金来说,可能就是很重要的信息。

聚类分析也是分类,但是要划分的类是未知的,这是聚类分析与一般判别分析的区别。

聚类分析的基本原理

1、样本间距离的度量

距离采用绝对值距离、欧氏距离、切比雪夫距离等,其中:

,利用距离可以度量不同样本之间的相似程度,在测量距离时,往往首先需要进行标准化变换,以消除量纲带来的影响。

当指标为非数值指标时,

2、相似程度的测量

最短距离法是测量相似程度的一种方法,利用最短距离法进行聚类分析的基本过程。

采用测量相似程度的不同方法,所得到的聚类分析结果可能有所不同。

在聚类分析中,希望得到的类数可以事先确定。

聚类分析即可以对样本进行聚类,也可以对指标进行聚类,因此可以采用这样的思路来考虑建立借款人违约概率预测模型。

参考文献3

数据挖掘的进一步案例:

决策树与客户细分、客户关系管理

近年来,数据挖掘成为一些企业进行客户关系管理的有力工具。

比如,企业可以通过数据挖掘方式进行客户细分,从而进行更加行之有效的客户关系管理;又比如,发现潜在的优质客户、发现可能转向竞争对手的优质客户等。

数据挖掘中有多种方法可用于客户细分与客户关系管理,决策树方法是其中之一,下面对此进行介绍。

案例1:

如何发现潜在的优质客户?

基本思路:

对已确定客户性质的银行客户数据,利用数据挖掘中的决策树方法可以进行优质客户细分(代表优质客户的每片叶子实际上就是优质客户的一种细分),即发现分别具有什么特征的客户会成为银行的优质客户,将这些特征与新客户相对照,可以从新客户中发觉出潜在的优质客户。

具体数据挖掘(略)

案例2:

可能转向竞争对手的客户有哪些特征,从而需要有针对性地开展工作。

案例3:

对贷款违约者的细分

其它方面的应用例子:

不按照医嘱服药(没有服完疗程)的患者细分

*一类患者认为如果过多服药会产生抗药性,这会使得他们真正需要服用药物时不再那么有用,因此病情稍有好转就停止服药;

*一类患者根本不相信药物是安全无害的,因此他们只服用使他们的症状减轻的剂量,当他们感觉好些了就马上停止服药。

*。

 

数据挖掘的评分(评级)系统及其应用

使用数据挖掘方法建立预测模型后,就可以用它来预测新的数据。

通常情况下,一个好的模型会被使用许多次,也可以用于对不同的数据集评分。

从而满足应用的需要。

案例:

基于新资本协议框架的银行内部评级系统构建

数据库:

某银行客户借贷的原始记录数据库,包含数于千计的客户信息记录:

是否违约(必要时需参照新资本协议的参考定义调整分类)、申请贷款时的企业的财务指标值和其他变量指标值。

构建方案1:

步骤如下:

1、数据整理;

2、指标的聚类分析,通过SAS软件实现;

3、各指标预测借款企业违约的信息含量测定——信号、噪音差分析方法,通过数据挖掘软件实现;

4、预测指标的选取和原始指标到信号指标的转换;

5、基于信号数和信号预测能力的银行内部评级体系构建,按照新资本协议要求的等级数构建;

6、确定各信用等级借款人的违约概率估计值(可以频率作为概率的估计值);

7、参照巴塞尔协议对VaR模型检验的“三重区域”法检验对各信用等级借款人违约概率估计的准确性。

8、确定银行内部信用评级体系,确定各信用等级借款人的违约率估计值。

9、需要划分训练样本组与检验样本组。

构建方案2:

步骤如下:

1、数据整理;

2、指标的聚类分析,通过SAS软件实现;

3、各指标预测借款企业违约的信息含量测定——信号、噪音差分析方法,通过数据挖掘软件实现;

4、预测指标的选取和原始指标到信号指标的转换;

5、利用决策数方法进行借款人信用等级细分;

6、适当合并细分的信用等级,建立银行内部信用评级体系;

7、确定各信用等级借款人的违约概率估计值(可以频率作为概率的估计值);

8、参照巴塞尔协议对VaR模型检验的“三重区域”法检验对各信用等级借款人违约概率估计的准确性。

9、确定银行内部信用评级体系,确定各信用等级借款人的违约率估计值。

10、需要划分训练样本组与检验样本组。

构建方案3:

步骤如下:

1、数据整理;

2、指标的聚类分析,通过SAS软件实现;

3、各指标预测借款企业违约的信息含量测定——信号、噪音差分析方法,通过数据挖掘软件实现;

4、预测指标的选取和原始指标到信号指标的转换;

5、利用Logistic回归或Probit过程建立借款人违约概率预测模型;

6、基于模型给出的违约概率大小建立银行内部信用评级体系;

7、确定各信用等级借款人的违约概率估计值(可以频率作为概率的估计值);

8、参照巴塞尔协议对VaR模型检验的“三重区域”法检验对各信用等级借款人违约概率估计的准确性。

9、确定银行内部信用评级体系,确定各信用等级借款人的违约率估计值。

10、需要划分训练样本组与检验样本组。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2