数据挖掘技术.docx-资源下载

数据挖掘技术.docx

1、数据挖掘技术数据挖掘技术一数据挖掘的含义和作用数据仓库的显现，带来了数据丰硕，但信息贫乏的状况。因此迫切需要一种新技术实现从企业海量的数据中发觉有效的信息或知识，从而显现了数据挖掘（Data Mining）技术。数据挖掘(Data Mining)确实是应用一系列技术从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事前不明白的、但又是潜在有效的信息和知识的进程。提取的知识表示为概念（Concepts）、规那么(Rules)、模式(Patterns)等形式。这些数据能够是结构化的,如关系数据库中的数据，也能够是半结构化的，如文本，图形，图像数据，乃至是散布在网络上的异

2、构型数据。发觉知识的方式能够是数学的，也能够是非数学的，能够是演绎的，也能够是归纳的。发觉了的知识能够被用于信息治理、查询优化、决策支持、进程操纵等，还能够进行数据自身的保护。数据挖掘借助了连年来数理统计技术和人工智能和知识工程等领域的研究功效构建自己的理论体系，是一个交叉学科领域，能够集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。还有一个概念：数据挖掘确实是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些信息是可能有潜在价值的，支持决策，能够为企业带来利益，或为科学研究寻觅冲破口。二、数据挖掘的目的它的目标是将大容量数据转化为有效的知识和信息。数据挖掘并非专用于特定领

3、域，它需要凝结各类技术和制造力去探讨可能隐藏在数据中的知识。在很多情形下，应用数据挖掘技术是为了实现以下三种目的：。发觉知识：知识发觉的目标是从数据库存储的数据中发觉隐藏的关系、模式和关联例如,在商业应用中数据挖掘可用于发觉分割、分类、关联、喜好四种知识。发觉分割知识能够将客户记录分组，策划为客户度身定做的推销活动。发觉分类知识能够将输入的数据分派到预概念的类别中，发觉和明白得趋势和对文本文档的进行分类等。发觉交叉销售的机遇是一种关联知识，和发觉大部份客户的喜好的知识4。。使数据可视化：分析人员需弄清楚数据库中存储的大量信息的含义。在做任何分析之前，需先将待处置的数据人性化，并寻觅显示

4、数据的好方式。纠正数据：在结合大规模的数据库时，数据库的数据常常是不完整的，而且通常包括错误和自相矛盾的信息。数据挖掘需要以最稳固的方式识别和纠正这些问题5。三、要紧功能数据挖掘综合了各个学科技术，有很多的功能，当前的如下：1分类：按照分析对象的属性、特征，建立不同的组类来描述事物。例如：银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。2聚类：识别出分析对内在的规则，按照这些规则把对象分成若干类。例如：将申请人分为高度风险申请者，中度风险申请者，低度风险申请者。3关联规则和序列模式的发现：关联是某种事物发生时其他事物会发生的这样一

5、种联系。例如：每天购买啤酒的人也有可能购买香烟，比重有多大，可以通过关联的支持度和可信度来描述。与关联不同，序列是一种纵向的联系。例如：今天银行调整利率，明天股市的变化。4预测：把握分析对象进展的规律，对以后的趋势做出预见。例如：对以后经济进展的判定。5误差的检测：对分析对象的少数的、极端的特例的描述，揭露内在的缘故。例如：在银行的100万笔交易中有500例的讹诈行为，银行为了稳健经营，就要发觉这500例的内在因素，减小以后经营的风险。四、数据挖掘的经常使用工具 SAS研究因此为数据挖掘是对数据进行选择，探讨，调整和建模来揭露数据中未知的模式，开发了图形界面的SAS/EM来进行数据挖掘：(1)

6、Sample抽样：从大量的数据中抽取与探讨问题有关的数据子集，那个样本应该包括足够的信息，又易于处置。(2)Explore 探讨：对数据子集进行探讨，寻觅出与期望的关系和未知的模式。(3)Modify 调整：对数据进行探讨后，有了初步的了解，就必需对数据进行增减，选择，转化，量化，保证有效进行。(4)Model 建模：应用分析工具，成立模型，进行预测。(5)Assess 评判：评判数据挖掘结果的有效性和靠得住性SPSS公司提出了5A的模型，进行数据挖掘，以为任何数据挖掘方式学都由5个大体元素组成：(1) Assess 正确、完全的了解业务需求及数据。(2) Access 获取数据，做适当的调整

7、。(3) Analyze 选择适当的分析、验证方式和工具(4) Act 推荐性、有说服力的原型演示(5) Automate 提供优秀的自动化软件。数据挖掘工具的市场一样分为三个组成部份：通用型工具、综合DSSOLAP数据挖掘工具和快速进展的面向特定应用的工具。通用型工具占有最大和最成熟的那部份市场。从概念上说，它们是非面向特定应用的适合于各类需要的情形，其中包括的要紧工具有SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW、SGI MineSet等软件。综合数据挖掘工具这一部份

8、市场反映了商业对具有多功能的决策支持工具的真实和迫切的需求。商业要求该工具能提供治理报告、在线分析处置和一般结构中的数据挖掘能力。这些综合工具包括Cognos Scenario和Business Objects等。面向特定应用工具这一部份工具正在快速进展，在这一领域的厂商设法通过提供商业方案而不是寻求方案的一种技术来区分自己和别的领域的厂商。这些工具是纵向的、贯穿这一领域的方方面面，其经常使用工具有重点应用在零售业的KD一、要紧应用在保险业的OptionChoices和针对讹诈行为探查开发的HNC软件12。五、丰硕的数据挖掘方式和算法 1算法：关联规那么：关联规那么是形式如下的一种包括或规那

9、么，X Y，其中X和Y别离是两个物品集合，这两个物品集中没有一起的物品。用于关联规那么发觉的对象主若是事务型数据库（transactional databases），其中针对的应用那么是售货数据，也称货篮数据。一个事务一样由如下几个部份组成：事务处置时刻，一组顾客购买的物品（items），有时也有顾客标识号（如信誉卡号）。由于条形码技术的进展，零售部门能够利用前端收款机搜集存储大量的售货数据。因此，若是对这些历史事务数据进行分析，那么可对顾客的购买行为提供极有价值的信息。例如，能够帮忙如何摆放货架上的商品（如把顾客常常同时买的商品放在一路），帮忙如何计划市场（如何彼此搭配进货）。由此可见，从

10、事务数据中发觉关联规那么，关于改良零售业等商业活动的决策超级重要。咱们对电信行业的客户记录事实表作为测试数据，利用关联规那么进行分析，取得较为成心义的规那么。决策树是一种超级有效的机械学习分类算法。决策树方式的起源是概念学习系统CLS，然后进展到ID3方式而为高潮，最后又演化为能处置持续属性的。出名的决策树方式还有CART和Assistant。决策树学习着眼于从一组无顺序、无规那么的事例中推理出决策树表示形式的分类规那么。它采纳自顶向下的递归方式，在决策树的内部结点进行属性值的比较并依照不同的属性值判定从该结点向下的分支，在决策树的叶结点取得结论。因此从根到叶结点的一条途径就对应着一条合取

11、规那么，整棵决策树就对应着一组析取表达式规那么。基于决策树的学习算法的一个最大的优势确实是它在学习进程中不需要利用者了解很多背景知识(这也同时是它最大的缺点)，只要训练例子能够用属性结论式的方式表达出来，就能够利用该算法来学习。考虑到递归算法对大数据量而言，系统的开销较大，咱们设计了非递归且能处置持续属性的决策树算法。同时，为了能利用户能清楚直观的明白得产生的决策规那么树，咱们设计了m-叉树的画法，这两个算法在广东地税稽察案例应用中，收到良好成效。粗糙集：波兰的针对的边界限区域思想提出了Rough集。他把那些无法确认的个体都归属于边界限区域，而这种边界限区域被概念为上近似集和下近似集之差集。

12、由于它有确信的数学公式描述，因此含糊元素数量是能够计算的，即在真假二值之间的含糊度是能够计算的。咱们对粗糙集中的一种重要表示方式不同矩阵进行了拓广，提出了广义不同矩阵的表示和可变属性气宇的概念。可变属性气宇用于属性选取的启发式评判函数时较好地克服了粗糙集中的属性重要度方式的一个限制：由于只考虑异类对象之间的差新颖使偏向于选取不同值个数多的属性。实验结果说明，在采纳粗糙集技术的分类规那么发觉方式中利用可变属性气宇方式与属性重要度方式相较，能取得更高的预测准确度和更简练的规那么。统计分析：本课题中，咱们要紧研究多个的统计模型的综合。通过对不同的统计模型的比较和组合，能够取得更为理想的结果，同时，

13、咱们的系统中包括了经常使用的统计模型，应用范围方面受到的限制要少一些。咱们包括的统计模型有：线性回归模型、非线性回归模型、确信型时刻序列模型、随机型时刻序列模型、自回归移动平均模型（ARMA）、相关分析。神经网络：是指一类新的计算模型，它是仿照人脑神经网络的结构和某些工作机制而成立的一种计算模型。这种计算模型的特点是，利用大量的简单计算单元（即神经元）连成网络，来实现大规模并行计算。神经网络的工作机理是通过学习，改变神经元之间的连接强度。经常使用的神经计算模型有多层感知机、反传网络、自适应映射网络等。在神经网络中，由权重和网络的拓扑结构决定了它所能识别的模式类型。一个学习算法是用于发觉给定任

14、务的权值的程序。最流行的神经网络学习算法是BP算法（Back-propagation algorithm）。支持向量机（SVM）是一种成立在统计学习理论基础上的机械学习方式。通过学习算法，SVM能够自动寻觅那些对分类有较好区分能力的支持向量，由此构造出的分类器能够最大化类与类的距离，因此有较好的推行性能和较高的分类准确率。SVM要紧思想是针对两类分类问题，在高维空间中寻觅一个超平面作为两类的分割，以保证最小的分类错误率。而且SVM一个重要的优势是能够处置线性不可分的情形。用SVM实现分类，第一要从原始空间中抽取特点，将原始空间中的样本映射为高维特点空间中的一个向量，以解决原始空间中线性不可分

15、的问题。模糊聚类通常利用基于传递闭包的方式, 该方式是不是失真最小在理论上缺乏保障，为解决这一问题, 咱们提出了基于摄动的模糊聚类方式,简称FCMBP模糊聚类。FCMBP模糊聚类比传递闭包法失真小, 而且在基于模糊相似阵的模糊聚类方式中, FCMBP方式是失真最小的。FCMBP方式不仅失真最小, 而且有时与传递闭包法的聚类结果还有本质不同。FCMBP方式比传递闭包法计算复杂, 但聚类层次丰硕。基于范例的推理(Case-Based Reasoning 简称CBR)：为了解决一个新问题（目标范例Target Case），CBR进行回忆, 从经历或范例库(Case Base)中找到一个与新问题相同

16、或相似的源范例（Source Case）, 然后把该范例的有关信息和知识进行修改就复用到新问题的求解当中，取得问题的解答。因此，这种由源范例来指导目标范例求解的方式，具有简化知识获取，通过直接复用提高求解效率，求解质量较高，适用于非计算推导的优势。考虑到存储和检索（空间和时刻）的开销，CBR对海量数据是不适合的。因此，咱们研究了利用Lattice、Moment理论对原始数据进行紧缩、降维，改变消极学习中推延处置的策略，踊跃地对数据进行综合总结，形成不同层次的不同粒度的模型。在测试的时期，用这些模型代替原始的数据/实例，提高分类和预测的性能。贝叶斯预测：贝叶斯网络是用来表示变量集合连接概率的图形

17、模式，它提供了一种自然的表示因果信息的方式，用来发觉数据间的潜在关系。在那个网络中，用节点表示变量，有向边表示变量间的依托关系。在数据挖掘中具有以下优势：能够处置不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性，从而解决了数据间的不一致性，乃至是彼此独立的问题；用图形的方式描述数据间的彼此关系，语义清楚、可明白得性强，这有助于利用数据间的因果关系进行预测分析。可视化技术：信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时，同其它技术相较，它有一个独特的地方：能极大地发挥用户的主动参预性。由于对数据进行了可视化，用户情愿进行探讨（Expl

18、ore），在探讨进程中有可能发觉意外的知识。2数据挖掘的方式数据挖掘方式分为统计方式、机械学习方式、可视化技术、神经网络方式和数据库方式。统计学的方式是数据挖掘的经典方式。抽样技术：咱们面对的是大量的数据，对所有的数据进行分析是不可能的也是没有必要的，就要在理论的指导下进行合理的抽样。多元统计分析：因子分析，聚类分析等。统计预测方式，如回归分析，时刻序列分析等。统计方式中包括回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探讨性分析( 主元分析法、相关分析法等)等。机械学习中包括归纳学习方式(决策树、规那么归纳等)、

19、基于范例学习、遗传算法、粗糙集等。粗糙集能够对不确信、不完整信息的进行处置，而遗传算法具有全局最优搜索的能力。神经网络方式模拟人的神经元功能，通过输入层，隐藏层，输出层等，对数据进行调整，计算，最后取得结果，用于分类和回归。具有处置非线性数据和含噪声数据的能力。神经网络的经常使用算法包括前向神经网络(BP算法等)、自组织神经网络(自组织特点映射、竞争学习等)等。数据库方式主若是多维数据分析或OLAP方式。OLAP系统的数据库为高效存储静态数据构建。其存储结构的设计是为了高效检索数据，尤其是聚合数据，比如求总和或是其他运算。可视化技术用图表等方式把数据特点用直观地表述出来，如直方图等，这其

20、中运用的许多描述统计的方式。可视化技术面对的一个难题是高维数据的可视化。决策树：利用一系列规那么划分，成立树状图，可用于分类和预测。经常使用的算法有CART、CHAID、ID3、等。遗传算法：基于自然进化理论，模拟基因联合、突变、选择等进程的一种优化技术。关联规那么挖掘算法：关联规那么是描述数据之间存在关系的规那么，形式为“A1A2AnB1B2Bn”。一样分为两个步骤：求出大数据项集。用大数据项集产生关联规那么。除了上述的常用方法外，还有粗集方法，模糊集合方法，Bayesian Belief Netords ,最邻近算法（k-nearest neighbors method(kNN

21、)）等。表1常用数据挖掘工具及其比较公司名产品名 NN DT B kM kNN S Pred TS C A W32 U P A-S SQL KnowledgeSEEKER Yes Yes Yes Yes Yes Knowledge STUDIOYes Yes Yes Yes Yes Yes Yes Yes Yes Yes Business Miner Yes Yes 4Thought Yes Yes Yes Yes Scenario Yes Yes DataBase Mining Marksman Yes Yes Yes Yes Yes Red Brick Data Miner Yes

22、Yes Yes Yes Yes Intelligent Miner Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Decision Series Yes Yes Yes Yes Yes Yes Yes Yes Yes NeuralSIM Yes Yes Yes Darwin Yes Yes Yes Yes Yes Yes DataCruncher Yes Yes Yes Yes CART Yes Yes Yes Yes Enterprise Miner Yes Yes Yes Yes Yes Yes Yes Yes Yes MineSet Yes Ye

23、s Yes Yes Yes Yes Yes Yes Yes Yes Answer Tree Yes Yes Yes Yes Yes Clementine Yes Yes Yes Yes Yes Yes Yes Yes Neural Connection Yes Yes Yes Yes Yes Object-Relational Technology Yes Yes Yes Pattern Recognition Workbench Yes Yes Yes Yes Yes Yes Yes Yes Yes Model 1 Yes Yes Yes Yes Yes Yes Yes Yes Yes 说明

24、：NN=Neural Net（神经网络）; DT=Decision Tree（决策树）;B=Bayes（贝叶斯方式）; kM=k-Means（动态聚类）; kNN=k-Nearest Neighbor（最临近算法）; S=Traditional Statistical Techniques（传通通计技术）; P=Prediction（预测）; TS=Time Series（时刻序列）; C=Clustering（聚类方式）; A=Association（关联方式）; W32=Windows 95/98/NT; U=UNIX; P=Parallel Scalability (in at leas

25、t one OS)（并行方式）; A-S=API or SDK available（API或SDK方式可用）; SQL=Uses Special SQL Extensions 六、数据挖掘的实施步骤数据挖掘是一个复杂的进程，它的一样步骤是：（1）分析问题: 源数据数据库必需通过评估确认其是不是符合数据挖掘标准。以决定预期结果，也就选择了这项工作的最优算法。（2）提取、清洗和校验数据：提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后，阅读所创建的模型，以确保所有的数据都已经存在而且完整。（3）创建和调试模型：将算法应用于模型后产生

26、一个结构。阅读所产生的结构中数据，确认它关于源数据中事实的准确代表性，这是很重要的一点。尽管可能无法对每一个细节做到这一点，可是通过查看生成的模型，就可能发觉重要的特点。（4）查询数据挖掘模型的数据：一旦成立模型，该数据就可用于决策支持了。在微软的数据挖掘解决方案中，该进程通常利用VB或ASP通过OLE DB for Data Mining Provider编写前端查询程序11。（5）保护数据挖掘模型：数据模型成立好后，初始数据的特点，如有效性，可能发生改变。一些信息的改变会对精度产生专门大的阻碍，因为它的转变阻碍作为基础的原始模型的性质。因此，保护数据挖掘模型是超级重要的环节。另外，一种数

27、据挖掘的步骤是：1问题明白得和提出：在开始数据挖掘之前最基础的确实是明白得数据和实际的业务问题，在那个基础之上提出问题，对目标有明确的概念。2数据预备：获取原始的数据，并从中抽取必然数量的子集，成立数据挖掘库，其中一个问题是若是企业原先的数据仓库知足数据挖掘的要求，就能够够将数据仓库作为数据挖掘库。3数据整理：由于数据可能是不完全的、有噪声的、随机的，有复杂的数据结构，就要对数据进行初步的整理，清洗不完全的数据，做初步的描述分析，选择与数据挖掘有关的变量，或者转变变量。4建立模型：根据数据挖掘的目标和数据的特征，选择合适的模型。5评价和解释：对数据挖掘的结果进行评价，选择最优的模型，作出评价，

28、运用于实际问题，并且要和专业知识结合对结果进行解释。以上的步骤不是一次完成的，可能其中某些步骤或全数要反复进行。七. 数据挖掘的应用领域数据挖掘技术从一开始确实是面向应用的，它不仅可用于特定数据库的简单检索查询挪用，而且要对这些数据进行统计、分析、综合和推理，以指导实际问题的求解，发觉事件间彼此关联关系和进行预测。商业上通过利用面向CRM数据挖掘技术使公司能够快速的对顾客的需求做出反映，而且能够查验商业策略的成效13。在科学研究方面，一个天文学上的闻名应用系统SKICAT确实是相当做功的数据挖掘应用，利用该系统，天文学家已发觉16个新的极为遥远的星群。在生物医学和DNA数据分析上，数据挖掘能够完成异构、散布式基因数据库的语义集成，用关联规那么分析同时显现的基因序列，用途径分析发此刻疾病不同时期的

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？