数据挖掘参考资料Word格式文档下载.docx

资源描述

数据挖掘参考资料Word格式文档下载.docx

《数据挖掘参考资料Word格式文档下载.docx》由会员分享，可在线阅读，更多相关《数据挖掘参考资料Word格式文档下载.docx（23页珍藏版）》请在冰点文库上搜索。

数据挖掘参考资料Word格式文档下载.docx

估值（Estimation）

预言（Prediction）

相关性分组或关联规则（Affinitygroupingorassociationrules）

聚集（Clustering）

描述和可视化（DescriptionandVisualization）

复杂数据类型挖掘（Text,Web,图形图像，视频，音频等）

　　2）数据挖掘分类

　　以上六种数据挖掘的分析方法可以分为两类：

直接数据挖掘；

间接数据挖掘

直接数据挖掘

　　目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量（可以理解成数据库中表的属性，即列）进行描述。

间接数据挖掘

　　目标中没有选出某一具体的变量，用模型进行描述；

而是在所有的变量中建立起某种关系。

分类、估值、预言属于直接数据挖掘；

后三种属于间接数据挖掘

　　3）各种分析方法的简介

　　首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。

　　例子：

　　a.信用卡申请者，分类为低、中、高风险

　　b.分配客户到预先定义的客户分片

　　注意：

类的个数是确定的，预先定义好的

估值（Estimation）

　　估值与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；

分类的类别是确定数目的，估值的量是不确定的。

　　a.根据购买模式，估计一个家庭的孩子个数

　　b.根据购买模式，估计一个家庭的收入

　　c.估计realestate的价值

　　一般来说，估值可以作为分类的前一步工作。

给定一些输入数据，通过估值，得到未知的连续变量的值，然后，根据预先设定的阈值，进行分类。

例如：

银行对家庭贷款业务，运用估值，给各个客户记分（Score0~1）。

然后，根据阈值，将贷款级别分类。

　　通常，预言是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。

从这种意义上说，预言其实没有必要分为一个单独的类。

预言其目的是对未来未知变量的预测，这种预测是需要时间来验证的，即必须经过一定时间后，才知道预言准确性是多少。

　　决定哪些事情将一起发生。

　　a.超市中客户在购买A的同时，经常会购买B，即A=>

B（关联规则）

　　b.客户在购买A后，隔一段时间，会购买B（序列分析）

　　聚集是对记录分组，把相似的记录在一个聚集里。

聚集和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。

　　a.一些特定症状的聚集可能预示了一个特定的疾病

　　b.租VCD类型不相似的客户聚集，可能暗示成员属于不同的亚文化群

　　聚集通常作为数据挖掘的第一步。

例如，"

哪一种类的促销对客户响应最好？

，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。

描述和可视化（DescriptionandVisualization）

　　是对数据挖掘结果的表示方式。

数据挖掘中的关联规则

　　1.什么是关联规则

　　在描述有关关联规则的一些细节之前，我们先来看一个有趣的故事：

尿布与啤酒"

的故事。

　　在一家超市里，有一个有趣的现象：

尿布和啤酒赫然摆在一起出售。

但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。

这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。

沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。

沃尔玛数据仓库里集中了其各门店的详细原始交易数据。

在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。

一个意外的发现是：

跟尿布一起购买最多的商品竟是啤酒！

经过大量实际调查和分析，揭示了一个隐藏在"

背后的美国人的一种行为模式：

在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。

产生这一现象的原因是：

美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

　　按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。

　　数据关联是数据库中存在的一类重要的可被发现的知识。

若两个或多个变量的取值之间存在某种规律性，就称为关联。

关联可分为简单关联、时序关联、因果关联。

关联分析的目的是找出数据库中隐藏的关联网。

有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。

Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。

他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；

对关联规则的应用进行推广。

关联规则挖掘在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。

　　2.关联规则挖掘过程、分类及其相关算法

　　2.1关联规则挖掘的过程

　　关联规则挖掘过程主要包含两个阶段：

第一阶段必须先从资料集合中找出所有的高频项目组（FrequentItemsets），第二阶段再由这些高频项目组中产生关联规则（AssociationRules）。

　　关联规则挖掘的第一阶段必须从原始资料集合中，找出所有高频项目组（LargeItemsets）。

高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。

一项目组出现的频率称为支持度（Support），以一个包含A与B两个项目的2-itemset为例，我们可以经由公式

（1）求得包含{A,B}项目组的支持度，若支持度大于等于所设定的最小支持度（MinimumSupport）门槛值时，则{A,B}称为高频项目组。

一个满足最小支持度的k-itemset，则称为高频k-项目组（Frequentk-itemset），一般表示为Largek或Frequentk。

算法并从Largek的项目组中再产生Largek+1，直到无法再找到更长的高频项目组为止。

　　关联规则挖掘的第二阶段是要产生关联规则（AssociationRules）。

从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小信赖度（MinimumConfidence）的条件门槛下，若一规则所求得的信赖度满足最小信赖度，称此规则为关联规则。

经由高频k-项目组{A,B}所产生的规则AB，其信赖度可经由公式

（2）求得，若信赖度大于等于最小信赖度，则称AB为关联规则。

　　就沃尔马案例而言，使用关联规则挖掘技术，对交易资料库中的纪录进行资料挖掘，首先必须要设定最小支持度与最小信赖度两个门槛值，在此假设最小支持度min_support=5%且最小信赖度min_confidence=70%。

因此符合此该超市需求的关联规则将必须同时满足以上两个条件。

若经过挖掘过程所找到的关联规则「尿布，啤酒」，满足下列条件，将可接受「尿布，啤酒」的关联规则。

用公式可以描述Support（尿布，啤酒）>

=5%且Confidence（尿布，啤酒）>

=70%。

其中，Support（尿布，啤酒）>

=5%于此应用范例中的意义为:

在所有的交易纪录资料中，至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。

Confidence（尿布，啤酒）>

=70%于此应用范例中的意义为:

在所有包含尿布的交易纪录资料中，至少有70%的交易会同时购买啤酒。

因此，今后若有某消费者出现购买尿布的行为，超市将可推荐该消费者同时购买啤酒。

这个商品推荐的行为则是根据「尿布，啤酒」关联规则，因为就该超市过去的交易纪录而言，支持了“大部份购买尿布的交易，会同时购买啤酒”的消费行为。

　　从上面的介绍还可以看出，关联规则挖掘通常比较适用与记录中的指标取离散值的情况。

如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化（实际上就是将某个区间的值对应于某个值），数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。

　　2.2关联规则的分类

　　按照不同情况，关联规则可以进行分类如下：

　　1.基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。

　　布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；

而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。

性别=“女”=>

职业=“秘书”，是布尔型关联规则；

avg（收入）=2300，涉及的收入是数值类型，所以是一个数值型关联规则。

　　2.基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。

　　在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；

而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。

IBM台式机=>

Sony打印机，是一个细节数据上的单层关联规则；

台式机=>

Sony打印机，是一个较高层次和细节层次之间的多层关联规则。

　　3.基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。

　　在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；

而在多维的关联规则中，要处理的数据将会涉及多个维。

换成另一句话，单维关联规则是处理单个属性中的一些关系；

多维关联规则是处理各个属性之间的某些关系。

啤酒=>

尿布，这条规则只涉及到用户的购买的物品；

职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。

　　2.3关联规则挖掘的相关算法

　　1.Apriori算法：

使用候选项集找频繁项集

　　Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

　　该算法的基本思想是：

首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。

然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。

然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。

一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。

为了生成所有频集，使用了递推的方法。

　　可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。

　　2.基于划分的算法

　　Savasere等设计了一个基于划分的算法。

这个算法先把数据库从逻辑上分成几个互不相交的块，每次单独考虑一个分块并对它生成所有的频集，然后把产生的频集合并，用来生成所有可能的频集，最后计算这些项集的支持度。

这里分块的大小选择要使得每个分块可以被放入主存，每个阶段只需被扫描一次。

而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。

该算法是可以高度并行的，可以把每一分块分别分配给某一个处理器生成频集。

产生频集的每一个循环结束后，处理器之间进行通信来产生全局的候选k-项集。

通常这里的通信过程是算法执行时间的主要瓶颈；

而另一方面，每个独立的处理器生成频集的时间也是一个瓶颈。

　　3.FP-树频集算法

　　针对Apriori算法的固有缺陷，J.Han等提出了不产生候选挖掘频繁项集的方法：

FP-树频集算法。

采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树（FP-tree），同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。

当原始数据量很大的时候，也可以结合划分的方法,使得一个FP-tree可以放入主存中。

实验表明，FP-growth对不同长度的规则都有很好的适应性，同时在效率上较之Apriori算法有巨大的提高。

　　3.该领域在国内外的应用

　　3．1关联规则发掘技术在国内外的应用

　　就目前而言，关联规则挖掘技术已经被广泛应用在西方金融行业企业中，它可以成功预测银行客户需求。

一旦获得了这些信息，银行就可以改善自身营销。

现在银行天天都在开发新的沟通客户的方法。

各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息，供使用本行ATM机的用户了解。

如果数据库中显示，某个高信用限额的客户更换了地址，这个客户很有可能新近购买了一栋更大的住宅，因此会有可能需要更高信用限额，更高端的新信用卡，或者需要一个住房改善贷款，这些产品都可以通过信用卡账单邮寄给客户。

当客户打电话咨询的时候，数据库可以有力地帮助电话销售代表。

销售代表的电脑屏幕上可以显示出客户的特点，同时也可以显示出顾客会对什么产品感兴趣。

　　同时，一些知名的电子商务站点也从强大的关联规则挖掘中的受益。

这些电子购物网站使用关联规则中规则进行挖掘，然后设置用户有意要一起购买的捆绑包。

也有一些购物网站使用它们设置相应的交叉销售，也就是购买某种商品的顾客会看到相关的另外一种商品的广告。

　　但是目前在我国，“数据海量，信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。

目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能，却无法发现数据中存在的各种有用的信息，譬如对这些数据进行分析，发现其数据模式及特征，然后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。

可以说，关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。

　　3．2近年来关联规则发掘技术的一些研究

　　由于许多应用问题往往比超市购买问题更复杂，大量研究从不同的角度对关联规则做了扩展，将更多的因素集成到关联规则挖掘方法之中，以此丰富关联规则的应用领域，拓宽支持管理决策的范围。

如考虑属性之间的类别层次关系，时态关系，多表挖掘等。

近年来围绕关联规则的研究主要集中于两个方面，即扩展经典关联规则能够解决问题的范围，改善经典关联规则挖掘算法效率和规则兴趣性。

数据挖掘技术实现

　　在技术上可以根据它的工作过程分为：

数据的抽取、数据的存储和管理、数据的展现等关键技术。

数据的抽取

　　数据的抽取是数据进入仓库的入口。

由于数据仓库是一个独立的数据环境，它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。

数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。

在数据抽取方面，未来的技术发展将集中在系统功能集成化方面，以适应数据仓库本身或数据源的变化，使系统更便于管理和维护。

数据的存储和管理

　　数据仓库的组织管理方式决定了它有别于传统数据库的特性，也决定了其对外部数据的表现形式。

数据仓库管理所涉及的数据量比传统事务处理大得多，且随时间的推移而快速累积。

在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。

目前，许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能，将普通关系数据库改造成适合担当数据仓库的服务器。

数据的展现

　　在数据展现方面主要的方式有：

　　查询：

实现预定义查询、动态查询、OLAP查询与决策支持智能查询；

报表：

产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表；

可视化：

用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系；

统计：

进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析；

挖掘：

利用数据挖掘等方法，从数据中得到关于数据关系和模式的识。

数据挖掘与数据仓库融合发展

　　数据挖掘和数据仓库的协同工作，一方面，可以迎合和简化数据挖掘过程中的重要步骤，提高数据挖掘的效率和能力，确保数据挖掘中数据来源的广泛性和完整性。

另一方面，数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。

　　数据挖掘和数据仓库是融合与互动发展的，其学术研究价值和应用研究前景将是令人振奋的。

它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果，更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。

统计学与数据挖掘

　　统计学和数据挖掘有着共同的目标：

发现数据中的结构。

事实上，由于它们的目标相似，一些人（尤其是统计学家）认为数据挖掘是统计学的分支。

这是一个不切合实际的看法。

因为数据挖掘还应用了其它领域的思想、工具和方法，尤其是计算机学科，例如数据库技术和机器学习，而且它所关注的某些领域和统计学家所关注的有很大不同。

1．统计学的性质

　　　　试图为统计学下一个太宽泛的定义是没有意义的。

尽管可能做到，但会引来很多异议。

相反，我要关注统计学不同于数据挖掘的特性。

　　差异之一同上节中最后一段提到的相关，即统计学是一门比较保守的学科，目前有一种趋势是越来越精确。

当然，这本身并不是坏事，只有越精确才能避免错误，发现真理。

但是如果过度的话则是有害的。

这个保守的观点源于统计学是数学的分支这样一个看法，我是不同意这个观点的,尽管统计学确实以数学为基础（正如物理和工程也以数学为基础，但没有被认为是数学的分支），但它同其它学科还有紧密的联系。

　　数学背景和追求精确加强了这样一个趋势：

在采用一个方法之前先要证明，而不是象计算机科学和机器学习那样注重经验。

这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法，但它却不能被证明（或还不能被证明）。

统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。

数据挖掘作为几门学科的综合，已经从机器学习那里继承了实验的态度。

这并不意味着数据挖掘工作者不注重精确，而只是说明如果方法不能产生结果的话就会被放弃。

　　正是统计文献显示了（或夸大了）统计的数学精确性。

同时还显示了其对推理的侧重。

尽管统计学的一些分支也侧重于描述，但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。

当然这也常常是数据挖掘所关注的。

下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。

这就意味着，由于可行性的原因，我们常常得到的只是一个样本，但是需要描述样本取自的那个大数据集。

然而，数据挖掘问题常常可以得到数据总体，例如关于一个公司的所有职工数据，数据库中的所有客户资料，去年的所有业务。

在这种情形下，推断就没有价值了（例如，年度业务的平均值），因为观测到的值也就是估计参数。

这就意味着，建立的统计模型可能会利用一系列概率表述（例如，一些参数接近于0，则会从模型中剔除掉），但当总体数据可以获得的话，在数据挖掘中则变得毫无意义。

在这里，我们可以很方便的应用评估函数：

针对数据的足够的表述。

事实是，常常所关注的是模型是否合适而不是它的可行性，在很多情形下，使得模型的发现很容易。

例如，在寻找规则时常常会利用吻合度的单纯特性（例如，应用分支定理）。

但当我们应用概率陈述时则不会得到这些特性。

　　统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型”。

或许“模型”这个术语更多的含义是变化。

一方面，统计学模型是基于分析变量间的联系，但另一方面这些模型关于数据的总体描述确实没有道理的。

关于信用卡业务的回归模型可能会把收入作为一个独立的变量，因为一般认为高收入会导致大的业务。

这可能是一个理论模型（尽管基于一个不牢靠的理论）。

与此相反，只需在一些可能具有解释意义的变量基础上进行逐步的搜索，从而获得一个有很大预测价值的模型，尽管不能作出合理的解释。

（通过数据挖掘去发现一个模型的时候，常常关注的就是后者）。

　　还有其它方法可以区分统计模型，但在这里我将不作探讨。

这里我想关注的是，现代统计学是以模型为主的。

而计算，模型选择条件是次要的，只是如何建立一个好的模型。

但在数据挖掘中，却不完全是如此。

在数据挖掘中，准则起了核心的作用。

（当然在统计学中有一些以准则为中心的独立的特例。

Gifi的关于学校的非线性多变量分析就是其中之一。

例如，Gifi说，在本书中我们持这样的观点，给定一些最常用的MVA（多变量分析）问题，既可以从模型出发也可以技术出发。

正如我们已经在1.1节所看到的基于模型的经典的多变量统计分析，……然而，在很多情形下，模型的选择并不都是显而易见的，选择一个合适的模型是不可能的，最合适的计算方法也是不可行的。

在这种情形下，我们从另外一个角度出发，应用设计的一系列技术来回答MVA问题，暂不考虑模型和最优判别的选择。

　　相对于统计学而言，准则在数据挖掘中起着更为核心的作用并不奇怪，数据挖掘所继承的学科如计算机科学及相关学科也是如此。

数据集的规模常常意味着传统的统计学

展开阅读全文