数据挖掘技术.docx

资源描述

数据挖掘技术.docx

《数据挖掘技术.docx》由会员分享，可在线阅读，更多相关《数据挖掘技术.docx（15页珍藏版）》请在冰点文库上搜索。

数据挖掘技术.docx

数据挖掘技术

一．数据挖掘的含义和作用

数据仓库的显现，带来了"数据丰硕，但信息贫乏"的状况。

因此迫切需要一种新技术实现从企业海量的数据中发觉有效的信息或知识，从而显现了数据挖掘（DataMining）技术。

数据挖掘（DataMining）确实是应用一系列技术从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事前不明白的、但又是潜在有效的信息和知识的进程。

提取的知识表示为概念（Concepts）、规那么（Rules）、模式（Patterns）等形式。

这些数据能够是结构化的,如关系数据库中的数据，也能够是半结构化的，如文本，图形，图像数据，乃至是散布在网络上的异构型数据。

发觉知识的方式能够是数学的，也能够是非数学的，能够是演绎的，也能够是归纳的。

发觉了的知识能够被用于信息治理、查询优化、决策支持、进程操纵等，还能够进行数据自身的保护。

数据挖掘借助了连年来数理统计技术和人工智能和知识工程等领域的研究功效构建自己的理论体系，是一个交叉学科领域，能够集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。

还有一个概念：

数据挖掘确实是从海量的数据中挖掘出可能有潜在价值的信息的技术。

这些信息是可能有潜在价值的，支持决策，能够为企业带来利益，或为科学研究寻觅冲破口。

二、数据挖掘的目的

它的目标是将大容量数据转化为有效的知识和信息。

数据挖掘并非专用于特定领域，它需要凝结各类技术和制造力去探讨可能隐藏在数据中的知识。

在很多情形下，应用数据挖掘技术是为了实现以下三种目的：

。

发觉知识：

知识发觉的目标是从数据库存储的数据中发觉隐藏的关系、模式和关联例如,在商业应用中数据挖掘可用于发觉分割、分类、关联、喜好四种知识。

发觉分割知识能够将客户记录分组，策划为客户度身定做的推销活动。

发觉分类知识能够将输入的数据分派到预概念的类别中，发觉和明白得趋势和对文本文档的进行分类等。

发觉交叉销售的机遇是一种关联知识，和发觉大部份客户的喜好的知识[4]。

。

使数据可视化：

分析人员需弄清楚数据库中存储的大量信息的含义。

在做任何分析之前，需先将待处置的数据人性化，并寻觅显示数据的好方式。

。

纠正数据：

在结合大规模的数据库时，数据库的数据常常是不完整的，而且通常包括错误和自相矛盾的信息。

数据挖掘需要以最稳固的方式识别和纠正这些问题[5]。

三、要紧功能

数据挖掘综合了各个学科技术，有很多的功能，当前的如下：

　　1．　分类：

按照分析对象的属性、特征，建立不同的组类来描述事物。

例如：

银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。

　　2．　聚类：

识别出分析对内在的规则，按照这些规则把对象分成若干类。

例如：

将申请人分为高度风险申请者，中度风险申请者，低度风险申请者。

　　3．　关联规则和序列模式的发现：

关联是某种事物发生时其他事物会发生的这样一种联系。

例如：

每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。

与关联不同，序列是一种纵向的联系。

例如：

今天银行调整利率，明天股市的变化。

4．　预测：

把握分析对象进展的规律，对以后的趋势做出预见。

例如：

对以后经济进展的判定。

5．　误差的检测：

对分析对象的少数的、极端的特例的描述，揭露内在的缘故。

例如：

在银行的100万笔交易中有500例的讹诈行为，银行为了稳健经营，就要发觉这500例的内在因素，减小以后经营的风险。

四、数据挖掘的经常使用工具

SAS研究因此为数据挖掘是对数据进行选择，探讨，调整和建模来揭露数据中未知的模式，开发了图形界面的SAS/EM来进行数据挖掘：

（1）Sample——抽样：

从大量的数据中抽取与探讨问题有关的数据子集，那个样本应该包括足够的信息，又易于处置。

（2）Explore——探讨：

对数据子集进行探讨，寻觅出与期望的关系和未知的模式。

（3）Modify——调整：

对数据进行探讨后，有了初步的了解，就必需对数据进行增减，选择，转化，量化，保证有效进行。

（4）Model——建模：

应用分析工具，成立模型，进行预测。

（5）Assess——评判：

评判数据挖掘结果的有效性和靠得住性　　SPSS公司提出了5A的模型，进行数据挖掘，以为任何数据挖掘方式学都由5个大体元素组成：

（1）Assess——正确、完全的了解业务需求及数据。

（2）Access——获取数据，做适当的调整。

（3）　Analyze——选择适当的分析、验证方式和工具　　（4）　Act——推荐性、有说服力的原型演示　　（5）　Automate——提供优秀的自动化软件。

数据挖掘工具的市场一样分为三个组成部份：

通用型工具、综合／DSS／OLAP数据挖掘工具和快速进展的面向特定应用的工具。

通用型工具占有最大和最成熟的那部份市场。

从概念上说，它们是非面向特定应用的适合于各类需要的情形，其中包括的要紧工具有SASEnterpriseMiner、IBMIntelligentMiner、OracleDarwin、SPSSClementine、UnicaPRW、SGIMineSet等软件。

综合数据挖掘工具这一部份市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。

商业要求该工具能提供治理报告、在线分析处置和一般结构中的数据挖掘能力。

这些综合工具包括Cognos Scenario和BusinessObjects等。

面向特定应用工具这一部份工具正在快速进展，在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。

这些工具是纵向的、贯穿这一领域的方方面面，其经常使用工具有重点应用在零售业的KD一、要紧应用在保险业的Option＆Choices和针对讹诈行为探查开发的HNC软件[12]。

五、丰硕的数据挖掘方式和算法

1．算法：

关联规那么：

关联规那么是形式如下的一种包括或规那么，XÞY，其中X和Y别离是两个物品集合，这两个物品集中没有一起的物品。

用于关联规那么发觉的对象主若是事务型数据库（transactionaldatabases），其中针对的应用那么是售货数据，也称货篮数据。

一个事务一样由如下几个部份组成：

事务处置时刻，一组顾客购买的物品（items），有时也有顾客标识号（如信誉卡号）。

由于条形码技术的进展，零售部门能够利用前端收款机搜集存储大量的售货数据。

因此，若是对这些历史事务数据进行分析，那么可对顾客的购买行为提供极有价值的信息。

例如，能够帮忙如何摆放货架上的商品（如把顾客常常同时买的商品放在一路），帮忙如何计划市场（如何彼此搭配进货）。

由此可见，从事务数据中发觉关联规那么，关于改良零售业等商业活动的决策超级重要。

咱们对电信行业的客户记录事实表作为测试数据，利用关联规那么进行分析，取得较为成心义的规那么。

决策树是一种超级有效的机械学习分类算法。

决策树方式的起源是概念学习系统CLS，然后进展到ID3方式而为高潮，最后又演化为能处置持续属性的。

出名的决策树方式还有CART和Assistant。

决策树学习着眼于从一组无顺序、无规那么的事例中推理出决策树表示形式的分类规那么。

它采纳自顶向下的递归方式，在决策树的内部结点进行属性值的比较并依照不同的属性值判定从该结点向下的分支，在决策树的叶结点取得结论。

因此从根到叶结点的一条途径就对应着一条合取规那么，整棵决策树就对应着一组析取表达式规那么。

基于决策树的学习算法的一个最大的优势确实是它在学习进程中不需要利用者了解很多背景知识（这也同时是它最大的缺点），只要训练例子能够用属性－结论式的方式表达出来，就能够利用该算法来学习。

考虑到递归算法对大数据量而言，系统的开销较大，咱们设计了非递归且能处置持续属性的决策树算法。

同时，为了能利用户能清楚直观的明白得产生的决策规那么树，咱们设计了m-叉树的画法，这两个算法在广东地税稽察案例应用中，收到良好成效。

粗糙集：

波兰的针对的边界限区域思想提出了Rough集。

他把那些无法确认的个体都归属于边界限区域，而这种边界限区域被概念为上近似集和下近似集之差集。

由于它有确信的数学公式描述，因此含糊元素数量是能够计算的，即在真假二值之间的含糊度是能够计算的。

咱们对粗糙集中的一种重要表示方式－不同矩阵进行了拓广，提出了广义不同矩阵的表示和可变属性气宇的概念。

可变属性气宇用于属性选取的启发式评判函数时较好地克服了粗糙集中的属性重要度方式的一个限制：

由于只考虑异类对象之间的差新颖使偏向于选取不同值个数多的属性。

实验结果说明，在采纳粗糙集技术的分类规那么发觉方式中利用可变属性气宇方式与属性重要度方式相较，能取得更高的预测准确度和更简练的规那么。

统计分析：

本课题中，咱们要紧研究多个的统计模型的综合。

通过对不同的统计模型的比较和组合，能够取得更为理想的结果，同时，咱们的系统中包括了经常使用的统计模型，应用范围方面受到的限制要少一些。

咱们包括的统计模型有：

线性回归模型、非线性回归模型、确信型时刻序列模型、随机型时刻序列模型、自回归－移动平均模型（ARMA）、相关分析。

神经网络：

是指一类新的计算模型，它是仿照人脑神经网络的结构和某些工作机制而成立的一种计算模型。

这种计算模型的特点是，利用大量的简单计算单元（即神经元）连成网络，来实现大规模并行计算。

神经网络的工作机理是通过学习，改变神经元之间的连接强度。

经常使用的神经计算模型有多层感知机、反传网络、自适应映射网络等。

在神经网络中，由权重和网络的拓扑结构决定了它所能识别的模式类型。

一个学习算法是用于发觉给定任务的权值的程序。

最流行的神经网络学习算法是BP算法（Back-propagationalgorithm）。

支持向量机（SVM）是一种成立在统计学习理论基础上的机械学习方式。

通过学习算法，SVM能够自动寻觅那些对分类有较好区分能力的支持向量，由此构造出的分类器能够最大化类与类的距离，因此有较好的推行性能和较高的分类准确率。

SVM要紧思想是针对两类分类问题，在高维空间中寻觅一个超平面作为两类的分割，以保证最小的分类错误率。

而且SVM一个重要的优势是能够处置线性不可分的情形。

用SVM实现分类，第一要从原始空间中抽取特点，将原始空间中的样本映射为高维特点空间中的一个向量，以解决原始空间中线性不可分的问题。

模糊聚类通常利用基于传递闭包的方式,该方式是不是失真最小在理论上缺乏保障，为解决这一问题,咱们提出了基于摄动的模糊聚类方式,简称FCMBP模糊聚类。

FCMBP模糊聚类比传递闭包法失真小,而且在基于模糊相似阵的模糊聚类方式中,FCMBP方式是失真最小的。

FCMBP方式不仅失真最小,而且有时与传递闭包法的聚类结果还有本质不同。

FCMBP方式比传递闭包法计算复杂,但聚类层次丰硕。

基于范例的推理（Case-BasedReasoning简称CBR）：

为了解决一个新问题（目标范例TargetCase），CBR进行回忆,从经历或范例库（CaseBase）中找到一个与新问题相同或相似的源范例（SourceCase）,然后把该范例的有关信息和知识进行修改就复用到新问题的求解当中，取得问题的解答。

因此，这种由源范例来指导目标范例求解的方式，具有简化知识获取，通过直接复用提高求解效率，求解质量较高，适用于非计算推导的优势。

考虑到存储和检索（空间和时刻）的开销，CBR对海量数据是不适合的。

因此，咱们研究了利用Lattice、Moment理论对原始数据进行紧缩、降维，改变消极学习中推延处置的策略，踊跃地对数据进行综合总结，形成不同层次的不同粒度的模型。

在测试的时期，用这些模型代替原始的数据/实例，提高分类和预测的性能。

贝叶斯预测：

贝叶斯网络是用来表示变量集合连接概率的图形模式，它提供了一种自然的表示因果信息的方式，用来发觉数据间的潜在关系。

在那个网络中，用节点表示变量，有向边表示变量间的依托关系。

在数据挖掘中具有以下优势：

能够处置不完整和带有噪声的数据集。

它用概率测度的权重来描述数据间的相关性，从而解决了数据间的不一致性，乃至是彼此独立的问题；用图形的方式描述数据间的彼此关系，语义清楚、可明白得性强，这有助于利用数据间的因果关系进行预测分析。

可视化技术：

信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。

当信息可视化作为数据挖掘的技术之一时，同其它技术相较，它有一个独特的地方：

能极大地发挥用户的主动参预性。

由于对数据进行了可视化，用户情愿进行探讨（Explore），在探讨进程中有可能发觉意外的知识。

2数据挖掘的方式

　　数据挖掘方式分为统计方式、机械学习方式、可视化技术、神经网络方式和数据库方式。

·统计学的方式是数据挖掘的经典方式。

①抽样技术：

咱们面对的是大量的数据，对所有的数据进行分析是不可能的也是没有必要的，就要在理论的指导下进行合理的抽样。

②多元统计分析：

因子分析，聚类分析等。

③统计预测方式，如回归分析，时刻序列分析等。

统计方式中包括回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探讨性分析（主元分析法、相关分析法等）等。

·机械学习中包括归纳学习方式（决策树、规那么归纳等）、基于范例学习、遗传算法、粗糙集等。

粗糙集能够对不确信、不完整信息的进行处置，而遗传算法具有全局最优搜索的能力。

·神经网络方式模拟人的神经元功能，通过输入层，隐藏层，输出层等，对数据进行调整，计算，最后取得结果，用于分类和回归。

具有处置非线性数据和含噪声数据的能力。

神经网络的经常使用算法包括前向神经网络（BP算法等）、自组织神经网络（自组织特点映射、竞争学习等）等。

·数据库方式主若是多维数据分析或OLAP方式。

OLAP系统的数据库为高效存储静态数据构建。

其存储结构的设计是为了高效检索数据，尤其是聚合数据，比如求总和或是其他运算。

　　·可视化技术用图表等方式把数据特点用直观地表述出来，如直方图等，这其中运用的许多描述统计的方式。

可视化技术面对的一个难题是高维数据的可视化。

　　·决策树：

利用一系列规那么划分，成立树状图，可用于分类和预测。

经常使用的算法有CART、CHAID、ID3、、等。

　　·遗传算法：

基于自然进化理论，模拟基因联合、突变、选择等进程的一种优化技术。

　　·关联规那么挖掘算法：

关联规那么是描述数据之间存在关系的规那么，形式为“A1∧A2∧…An→B1∧B2∧…Bn”。

一样分为两个步骤：

①求出大数据项集。

②用大数据项集产生关联规那么。

　　除了上述的常用方法外，还有粗集方法，模糊集合方法，BayesianBeliefNetords,最邻近算法（k-nearestneighborsmethod（kNN））等。

　　表1　常用数据挖掘工具及其比较

公司名

产品名

kNN

Pred

W32

A-S

SQL

KnowledgeSEEKER

Yes

KnowledgeSTUDIO

Yes

BusinessMiner

Yes

4Thought

Yes

Scenario

Yes

DataBaseMiningMarksman

Yes

RedBrickDataMiner

Yes

IntelligentMiner

Yes

DecisionSeries

Yes

NeuralSIM

Yes

Darwin

Yes

DataCruncher

Yes

CART

Yes

EnterpriseMiner

Yes

MineSet

Yes

AnswerTree

Yes

Clementine

Yes

NeuralConnection

Yes

Object-RelationalTechnology

Yes

PatternRecognitionWorkbench

Yes

Model1

Yes

说明：

NN=NeuralNet（神经网络）;DT=DecisionTree（决策树）;B=Bayes（贝叶斯方式）;kM=k-Means（动态聚类）;kNN=k-NearestNeighbor（最临近算法）;S=TraditionalStatisticalTechniques（传通通计技术）;P=Prediction（预测）;TS=TimeSeries（时刻序列）;C=Clustering（聚类方式）;A=Association（关联方式）;W32=Windows95/98/NT;U=UNIX;P=ParallelScalability（inatleastoneOS）（并行方式）;A-S=APIorSDKavailable（API或SDK方式可用）;SQL=UsesSpecialSQLExtensions

六、数据挖掘的实施步骤

数据挖掘是一个复杂的进程，它的一样步骤是：

（1）分析问题:

源数据数据库必需通过评估确认其是不是符合数据挖掘标准。

以决定预期结果，也就选择了这项工作的最优算法。

（2）提取、清洗和校验数据：

提取的数据放在一个结构上与数据模型兼容的数据库中。

以统一的格式清洗那些不一致、不兼容的数据。

一旦提取和清理数据后，阅读所创建的模型，以确保所有的数据都已经存在而且完整。

（3）创建和调试模型：

将算法应用于模型后产生一个结构。

阅读所产生的结构中数据，确认它关于源数据中"事实"的准确代表性，这是很重要的一点。

尽管可能无法对每一个细节做到这一点，可是通过查看生成的模型，就可能发觉重要的特点。

（4）查询数据挖掘模型的数据：

一旦成立模型，该数据就可用于决策支持了。

在微软的数据挖掘解决方案中，该进程通常利用VB或ASP通过OLEDBforDataMiningProvider编写前端查询程序[11]。

（5）保护数据挖掘模型：

数据模型成立好后，初始数据的特点，如有效性，可能发生改变。

一些信息的改变会对精度产生专门大的阻碍，因为它的转变阻碍作为基础的原始模型的性质。

因此，保护数据挖掘模型是超级重要的环节]。

另外，一种数据挖掘的步骤是：

1．　问题明白得和提出：

在开始数据挖掘之前最基础的确实是明白得数据和实际的业务问题，在那个基础之上提出问题，对目标有明确的概念。

2．　数据预备：

获取原始的数据，并从中抽取必然数量的子集，成立数据挖掘库，其中一个问题是若是企业原先的数据仓库知足数据挖掘的要求，就能够够将数据仓库作为数据挖掘库。

　　3．　数据整理：

由于数据可能是不完全的、有噪声的、随机的，有复杂的数据结构，就要对数据进行初步的整理，清洗不完全的数据，做初步的描述分析，选择与数据挖掘有关的变量，或者转变变量。

　　4．　建立模型：

根据数据挖掘的目标和数据的特征，选择合适的模型。

　　5．　评价和解释：

对数据挖掘的结果进行评价，选择最优的模型，作出评价，运用于实际问题，并且要和专业知识结合对结果进行解释。

以上的步骤不是一次完成的，可能其中某些步骤或全数要反复进行。

七.数据挖掘的应用领域

数据挖掘技术从一开始确实是面向应用的，它不仅可用于特定数据库的简单检索查询挪用，而且要对这些数据进行统计、分析、综合和推理，以指导实际问题的求解，发觉事件间彼此关联关系和进行预测。

商业上通过利用面向CRM数据挖掘技术使公司能够快速的对顾客的需求做出反映，而且能够查验商业策略的成效[13]。

在科学研究方面，一个天文学上的闻名应用系统SKICAT确实是相当做功的数据挖掘应用，利用该系统，天文学家已发觉16个新的极为遥远的星群。

在生物医学和DNA数据分析上，数据挖掘能够完成异构、散布式基因数据库的语义集成，用关联规那么分析同时显现的基因序列，用途径分析发此刻疾病不同时期的

展开阅读全文