数据挖掘及基于Excel DM插件的具体实例分析.docx

资源描述

数据挖掘及基于Excel DM插件的具体实例分析.docx

《数据挖掘及基于Excel DM插件的具体实例分析.docx》由会员分享，可在线阅读，更多相关《数据挖掘及基于Excel DM插件的具体实例分析.docx（15页珍藏版）》请在冰点文库上搜索。

数据挖掘及基于Excel DM插件的具体实例分析.docx

数据挖掘及基于ExcelDM插件的具体实例分析

一、数据挖掘（DM）的基本介绍

数据挖掘（DataMining）是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示3个步骤。

数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

（XX百科）。

数据挖掘起源于从数据库中发现知识（KnowledgeDiscoveryinDatabase，简称KDD）。

KDD一词于1989年8月首次出现在美国底特律市举行的第11届国际联合人工智能学术会议上。

KDD被定义为“从数据中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”，即从数据库中提取隐含的、感兴趣的、有用的知识和模式。

在1996年出版的总结该领域进展的权威论文集《知识发现与数据挖掘研究进展》中，Fayyad等人重新给出了KDD和数据挖掘的定义，将二者加以区分：

KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程；数据挖掘是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。

换句话说，KDD是一个包括数据选择、数据预处理、数据变换、数据挖掘、模式评价等步骤，最终得到知识的全过程，而数据挖掘只是其中的一个关键步骤。

简而言之，许多人把数据挖掘视为KDD的同义词，而另一些人则把数据挖掘视为数据库中发现知识过程中的一个基本步骤，认为数据挖掘是知识发现过程中的一步，而且是最重要的一步。

因此，数据挖掘的广义观点为：

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的知识的过程。

为了统一认识，Fayyadetal.（1996）对KDD和数据挖掘进行了重新定义。

KDD的新定义为：

“从数据中辨别有效用的，新颖的，潜在有用的，最终可理解模式的过程”。

Fayyadetal.（1996）认为：

“数据挖掘是通过KDD过程中特定的算法处理，在可接受的计算效率下生成特定模式的一个步骤”。

Klosgen和Zvtkow则认为：

数据挖掘时一种透过低阶算法来揭露隐含于数据库中高层信息的应用。

因此，再重新定义后的KDD是一个包含数据选择、预处理、交换、挖掘、评估等步骤，并最终得到知识的一个过程。

而数据挖掘只是知识发现其中一个关键步骤。

尽管如此，人们还是经常将二者等同看待，即使是单独使用数据挖掘一词，其实也包含数据预处理和结果评估验证等内容。

二、数据预测分析的用途

数据预测是首先建立连续函数值模型，然后构造和使用模型评估无样本类，或评估给定样本可能具有的属性或值空间的过程。

而数据预测分析的用途便可从其定义中引申出来。

简单来说，预测要运用各种知识和科学手段，分析研究历史资料和调研资料，对事物发展趋势或可能的结果进行事先的推测和估计。

人们对未来进行预测是为了探索预测对象发展的客观规律，揭示其发展方向和趋势，分析其发展的途径和条件，为研究制定最佳方案提供依据。

所以数据预测分析广泛的应用与多种场合。

大到销售预测，备件需求的预测，经济趋势预测，小到合格品率的预测，长途客运客流量预测，贷款偿还预测等等。

正如ForresterResearch公司的分析师JamesKobielus在Forrester博客的文章中指出的，这项技术是你面向服务架构战略的核心，你可以将预测逻辑深深嵌入到数据仓库、业务流程管理平台、CEP流和业务应用中。

它会变得无处不在，指导所有的决策、交易和应用。

该技术将上升到这一挑战，企业必须走向全面的先进的结合分析数据挖掘、内容分析和数据库内分析的战略。

三、数据预测分析的目前状况和发展趋势

截止到2010年底，相关资料表明数据挖掘、预测分析以及相关业务建模技术几乎完全是由高技能高工资的统计学家、数学家和定量分析师所使用。

但随着数据挖掘的普及度越来远大，这一情况正在发生变化。

而数据预测分析作为数据挖掘的一个重要环节，也越来越被人们关注。

个人认为，其实数据挖掘和数据预测分析，在我们日常的学习和生活中无处不在，而我们也无处不用。

只是，我们不知道我们所用到的方法被定义为“数据挖掘”或是“数据预测分析”。

举个简单的例子来说，给出一组数：

1,2,3,4,5,6,7,8······对于这组数大家很容易看出来，这是一个等差序列，而从我们分析这组数据到总结出这是一个等差序列的过程就是数据挖掘的过程。

假设再让我们写出第九个数或是第n个数，这便是数据预测分析。

再举个实际生活中的例子，超市中客户在购买A的同时，经常会购买B，即A=>B（关联规则）。

在一家超市里，有一个有趣的现象：

尿布和啤酒赫然摆在一起出售。

但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。

这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。

沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。

沃尔玛数据仓库里集中了其各门店的详细原始交易数据。

在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。

一个意外的发现是：

"跟尿布一起购买最多的商品竟是啤酒！

经过大量实际调查和分析，揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式：

在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。

产生这一现象的原因是：

美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

通过这些例子，我们不难发现数据挖掘和数据预测分析就在我们身边。

一个就在大家身边的理论，而且会不断地被大家所熟悉，之后再被大家运用，那么这个理论一定“很有前途”。

所以，数据预测分析的发展趋势是良好的，相信它会广泛的应用于各行各业，在各行各业中发光发热。

四、数据挖掘的基本工具和基本算法

1、数据挖掘的基本工具

首先是数据挖掘工具分类，数据挖掘工具根据其适用的范围分为两类：

专用挖掘工具和通用挖掘工具。

专用数据挖掘工具是针对某个特定领域的问题提供解决方案，在涉及算法的时候充分考虑了数据、需求的特殊性，并作了优化。

对任何领域，都可以开发特定的数据挖掘工具。

例如，IBM公司的AdvancedScout系统针对NBA的数据，帮助教练优化战术组合。

特定领域的数据挖掘工具针对性比较强，只能用于一种应用；也正因为针对性强，往往采用特殊的算法，可以处理特殊的数据，实现特殊的目的，发现的知识可靠度也比较高。

通用数据挖掘工具不区分具体数据的含义，采用通用的挖掘算法，处理常见的数据类型。

例如，IBM公司Almaden研究中心开发的QUEST系统，SGI公司开发的MineSet系统，加拿大SimonFraser大学开发的DBMiner系统。

通用的数据挖掘工具可以做多种模式的挖掘，挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。

其次是数据挖掘工具选择需要考虑的问题，数据挖掘是一个过程，只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合，并在实施的过程中不断的磨合，才能取得成功，因此我们在选择数据挖掘工具的时候，要全面考虑多方面的因素，主要包括以下几点：

（1）可产生的模式种类的数量：

分类，聚类，关联等

（2）解决复杂问题的能力（3）操作性能（4）数据存取能力（5）和其他产品的接口。

最后，介绍几种常用的数据挖掘工具：

1、QUEST　　QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统，目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。

系统具有如下特点：

（1）提供了专门在大型数据库上进行各种开采的功能：

关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。

（2）各种开采算法具有近似线性计算复杂度，可适用于任意大小的数据库。

（3）算法具有找全性，即能将所有满足指定类型的模式全部寻找出来，为各种发现功能设计了相应的并行算法。

2、MineSet　　MineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。

MineSet集成多种数据挖掘算法和可视化工具，帮助用户直观地、实时地发掘、理解大量数据背后的知识。

MineSet有如下特点：

（1）MineSet以先进的可视化显示方法闻名于世；支持多种关系数据库，可以直接从Oracle、Informix、Sybase的表读取数据，也可以通过SQL命令执行查询；

（2）多种数据转换功能。

在进行挖掘前，MineSet可以去除不必要的数据项，统计、集合、分组数据，转换数据类型，构造表达式由已有数据项生成新的数据项，对数据采样等；（3）操作简单、支持国际字符、可以直接发布到Web。

3、DBMiner　　DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统，它的前身是DBLearn。

该系统设计的目的是把关系数据库和数据开采集成在一起，以面向属性的多级概念为基础发现各种知识。

DBMiner系统具有如下特色：

（1）能完成多种知识的发现：

泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。

（2）综合了多种数据开采技术：

面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。

（3）提出了一种交互式的类SQL语言――数据开采查询语言DMQL。

（4）能与关系数据库平滑集成。

（5）实现了基于客户/服务器体系结构的Unix和PC（Windows/NT）版本的系统。

4、IntelligentMiner　　由美国IBM公司开发的数据挖掘软件IntelligentMiner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括IntelligentMinerforData和IntelligentMinerforText。

IntelligentMinerforData可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。

它已经成功应用于市场分析、诈骗行为监测及客户联系管理等；IntelligentMinerforText允许企业从文本信息进行数据挖掘，文本数据源可以是文本文件、Web页面、电子邮件、LotusNotes数据库等等。

5、SASEnterpriseMiner　　这是一种在我国的企业中得到采用的数据挖掘工具，比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。

SASEnterpriseMiner是一种通用的数据挖掘工具，按照"抽样--探索--转换--建模--评估"的方法进行数据挖掘。

可以与SAS数据仓库和OLAP集成，实现从提出数据、抓住数据到得到解答的"端到端"知识发现。

6、SPSSClementineSPSSClementine是一个开放式数据挖掘工具，曾两次获得英国政府SMART创新奖，它不但支持整个数据挖掘流程，从数据获取、转化、建模、评估到最终部署的全部过程，还支持数据挖掘的行业标准--CRISP-DM。

Clementine的可视化数据挖掘使得"思路"分析成为可能，即将集中精力在要解决的问题本身，而不是局限于完成一些技术性工作（比如编写代码）。

提供了多种图形化技术，有助于理解数据间的关键性联系，指导用户以最便捷的途径找到问题的最终解决办法。

7、数据库厂商集成的挖掘工具SQLServer2000包含由Microsoft研究院开发的两种数据挖掘算法：

Microsoft决策树和Microsoft聚集。

此外，SQLServer2000中的数据挖掘支持由第三方开发的算法。

Microsoft决策树算法：

该算法基于分类。

算法建立一个决策树，用于按照事实数据表中的一些列来预测其他列的值。

该算法可以用于判断最倾向于单击特定标题（banner）或从某电子商务网站购买特定商品的个人。

Microsoft聚集算法：

该算法将记录组合到可以表示类似的、可预测的特征的聚集中。

通常这些特征可能是隐含或非直观的。

例如，聚集算法可以用于将潜在汽车买主分组，并创建对应于每个汽车购买群体的营销活动。

SQLServer2005在数据挖掘方面提供了更为丰富的模型、工具以及扩展空间。

包括：

可视化的数据挖掘工具与导航、8种数据挖掘算法集成、DMX、XML/A、第三方算法嵌入支持等等。

OracleDataMining（ODM）是Oracle数据库10g企业版的一个选件，它使公司能够从最大的数据库中高效地提取信息并创建集成的商务智能应用程序。

数据分析人员能够发现那些隐藏在数据中的模式和内涵。

应用程序开发人员能够在整个机构范围内快速自动提取和分发新的商务智能―预测、模式和发现。

ODM针对以下数据挖掘问题为Oracle数据库10g提供支持：

分类、预测、回归、聚类、关联、属性重要性、特性提取以及序列相似性搜索与分析（BLAST）。

所有的建模、评分和元数据管理操作都是通过OracleDataMining客户端以及PL/SQL或基于Java的API来访问的，并且完全在关系数据库内部进行。

IBMIntelligentMiner通过其世界领先的独有技术，例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现，它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作。

若有必要，对结果数据集还可以重复这一过程，直至得到满意结果为止。

现在，IBM的IntelligentMiner已形成系列，它帮助用户从企业数据资产中识别和提炼有价值的信息。

它包括分析软件工具----IntelligentMinerforData和IBMIntelligentMinerforText，帮助企业选取以前未知的、有效的、可行的业务知识----如客户购买行为，隐藏的关系和新的趋势，数据来源可以是大型数据库和企业内部或Internet上的文本数据源。

然后公司可以应用这些信息进行更好、更准确的决策，获得竞争优势。

2、数据挖掘的基本算法（10个经典算法）

（1）、C4.5

C4.5，是机器学习算法中的一个分类决策树算法，它是决策树（决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树）核心算法ID3的改进算法，所以基本上了解了一半决策树构造方法就能构造它。

决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。

C4.5相比于ID3改进的地方有：

1、用信息增益率来选择属性。

ID3选择属性用的是子树的信息增益，这里可以用很多方法来定义信息，ID3使用的是熵（entropy，熵是一种不纯度度量准则），也就是熵的变化值。

而C4.5用的是信息增益率。

区别就在于一个是信息增益，一个是信息增益率。

一般来说率就是用来取平衡用的，就像方差起的作用差不多，比如有两个跑步的人，一个起点是10m/s的人、其10s后为20m/s；另一个人起速是1m/s、其1s后为2m/s。

如果紧紧算差值那么两个差距就很大了，如果使用速度增加率（加速度，即都是为1m/s^2）来衡量，2个人就是一样的加速度。

因此，C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。

2、在树构造过程中进行剪枝，在构造决策树的时候，那些挂着几个元素的节点，不考虑最好，不然容易导致overfitting。

3、对非离散数据也能处理。

4、能够对不完整数据进行处理。

（2）、Thek-meansalgorithm即K-Means算法

k-meansalgorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割（k

它与处理混合正态分布的最大期望算法（本十大算法第五条）很相似，因为他们都试图找到数据中自然聚类的中心。

它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。

（3）、Supportvectormachines

支持向量机，英文为SupportVectorMachine，简称SV机（论文中一般简称SVM）。

它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。

支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。

在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。

假定平行超平面间的距离或差距越大，分类器的总误差越小。

一个极好的指南是C.J.CBurges的《模式识别支持向量机指南》。

vanderWalt和Barnard将支持向量机和其他分类器进行了比较。

（4）、TheApriorialgorithm

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。

其核心是基于两阶段频集思想的递推算法。

该关联规则在分类上属于单维、单层、布尔关联规则。

在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

（5）、最大期望（EM）算法

在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（LatentVariabl）。

最大期望经常用在机器学习和计算机视觉的数据集聚（DataClustering）领域。

（6）、PageRank

PageRank是Google算法的重要内容。

2001年9月被授予美国专利，专利人是Google创始人之一拉里•佩奇（LarryPage）。

因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。

PageRank根据网站的外部链接和内部链接的数量和质量，衡量网站的价值。

PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。

这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。

PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。

（7）、AdaBoost

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。

将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器融合起来，作为最后的决策分类器。

（8）、kNN:

k-nearestneighborclassification

K最近邻（k-NearestNeighbor，KNN）分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

该方法的思路是：

如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

（9）、NaiveBayes

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型（DecisionTreeModel）和朴素贝叶斯模型（NaiveBayesianModel，NBC）。

朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。

同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

理论上，NBC模型与其他分类方法相比具有最小的误差率。

但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。

而在属性相关性较小时，NBC模型的性能最为良好。

（10）、 CART:

分类与回归树

CART,ClassificationandRegressionTrees。

在分类树下面有两个关键的思想：

第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

五、基于Excel2007DM插件的介绍

通过使用MicrosoftSQLServer2005Office2007数据挖掘外接程序（数据挖掘外接程序），可以在OfficeExcel2007和OfficeVisio2007中利用SQLServer2005的预测分析功能。

下面我开始介绍数据挖掘插件，安装完成后，打开文件DMAddins_SampleData.xlsx（默认位置在X86：

\ProgramFiles\MicrosoftSQLServer2008DMAdd-Ins，X64：

\ProgramFiles（x86）\MicrosoftSQLServer2008DMAdd-Ins），我们可以看到能够使用的数据挖掘工具如下图所示：

操作步骤如下：

（1）选择“数据挖掘”选项卡，框选相应的数据区域

（2）选项卡中有关联，预测，聚类分析等等，以“预测”为例，点击“预测”按钮后，自动弹出预测数据挖掘向导，

也可以在此时选择数据表和数据区域，在这里数据表我们选择了“詹姆斯生涯数据表”，数据区域选择了所有区域。

按照向导对输入内容进行设置、结构名称和描述、模块名称和描述，点击“完成”即可，其结果如下图所示：

六、应用该插件对实际案例的分析

个人是一个比较喜欢篮球的人，对NBA也比较关注，我喜欢的球星是热火队的勒布朗.詹姆斯。

所以我在网上下载了他的生涯数据，来做预测分析。

被选择的数据：

使用聚类分析对数据有一个进一步的，整体性的了解：

关注NBA的同学们都知道，球员的效率值是衡量球员能力好差的一个重要的指标。

而效率值由出场时间以及对球队的贡献决定。

所以，我们来看看这位超级巨星的能力吧。

从以上四个预测分析来看，出场时间即使只有39分钟，詹姆斯也有将近30分，8个篮板，7个助攻的华丽数据。

出场时间如果达到42.8的话，这对球员的体力无意识最大的考验。

一场比赛总共也就48分钟，所以随着出场时间的加长，勒布朗的各项数据有点下滑，也是情理之中的。

不过有一点是很重要的，他的失误不会随着时间的拉长而增多。

总的来说，对于像勒布朗这样的超级球星来说，即使出场时间不是很长，也能拿下漂亮的数据，这就意味着，他们都有着很高的效率值。

勒布朗之所以伟大，不仅仅是因为其出色的个人能力，更重要的是，勒布朗是一个顾全大局之人，他看中的不是数据，而是胜利。

从下面的分析中我们就可以看出来：

从这组曲线我们可以看出，即使詹姆斯一人得了将近30分，他还能送出很多助攻，帮助队友得分，还能抢下许多篮板，使球队在防守端和进攻端都有出色的表现。

詹姆斯这么厉害，他最擅长的进攻方式是什么呢？

熟悉他的人都知道，其实他最擅长的进攻方式是上篮。

而在新赛季，他竟然吧三分球命中率提高到了36.20%，我们分析一下，三分球对他得分影响并与另一位以三分球而闻名的神射手----雷阿伦做个比较：

通过对比，不难看出三分球命中率对勒布朗得分的影响并不大，即使三分球命中率仅为30%，他能拿到28分左右，而三分球命中率提到37%后，他也拿同样的得分。

而对于阿伦来说，三分球命中率由39.5%提升到41.5%时，得分多了12分左右。

从这也说明这是完全不同的两类运动员，一个是靠上篮得分多一些，另一个靠三分得分多一些。

以上就是对勒布朗.詹姆斯的一些简单的分析，通过这些分析，无论你是否关注NBA，是否关注篮球，相信你对勒布朗都有了一定的了解：

一个效率极高的，十分全面的，一个不在乎数据，在乎胜利的篮球巨星。

七、总结

数据挖掘是一个很好很强大的方法，通过它我们可以做很多事情。

但是就目前来看，它的普及程度并不高。

就我个人而言，在实例分析时，甚至很难想到一些数据来做数据挖掘，以至于最后只能用较少的数据，来分析一个NBA球员的数据。

我觉着之

展开阅读全文