大数据挖掘技术地的综述Word文档下载推荐.docx

资源描述

大数据挖掘技术地的综述Word文档下载推荐.docx

《大数据挖掘技术地的综述Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《大数据挖掘技术地的综述Word文档下载推荐.docx（7页珍藏版）》请在冰点文库上搜索。

大数据挖掘技术地的综述Word文档下载推荐.docx

规如此、概念、规律与模式等。

它可帮助决策者分析历史数据与当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。

数据挖掘的过程也叫知识发现的过程，它是一门涉与面很广的交叉性新兴学科，涉与到数据库、人工智能、数理统计、可视化、并行计算等领域。

数据挖掘是一种新的信息处理技术，其主要特点是对数据

库中的大量数据进展抽取、转换、分析和其他模型化处理，并从中提取辅助决策的关键性数据。

数据挖掘是KDD〔KnowledgeDiscoveryinDatabase〕中的重要技术，它并不是用规X的数据库查询语言〔如SQL〕进展查询，而是对查询的内容进展模式的总结和内在规律的搜索。

传统的查询和报表处理只是得到事件发生的结果，并没有深入研究发生的原因，而数据挖掘如此主要了解发生的原因，并且以一定的置信度对未来进展预测，用来为决策行为提供有利的支持。

数据挖掘的研究融合了多个不同学科领域的技术与成果，使得目前的数据挖掘方法表现出多种多样的形式。

从统计分析类的角度来说，统计分析技术中使用的数据挖掘模型有线形分析和非线形分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近序列分析、最近邻算法和聚类分析等方法。

利用这些技术可以检查那些异常形式的数据，然后，利用各种统计模型和数学模型解释这些数据，解释隐藏在这些数据背后的市场规律和商业机会。

知识发现类数据挖掘技术是一种与统计分析类数据挖掘技术完全不同的挖掘技术，包括人工神经元网络、支持向量机、决策树、遗传算法、粗糙集、规如此发现和关联顺序等。

传统的统计学为数据挖掘提供了许多判别和回归分析方法，常用的有贝叶斯推理、回归分析、方差分析等技术、贝叶斯推理是在知道新的信息后修正数据集概率分布的根本工具，处理数据挖掘中的分类问题，回归分析用来找到一个输入变量和输出变量关系的最优模型，在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归，还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响，是许多挖掘应用中有力的工具之一。

关联规如此是一种简单，实用的分析规如此，它描述了一个事物中某些属性同时出现的规律和模式，是数据挖掘中最成熟的主要技术之一。

它是由R．Agrawal等人首先提出的，最经典的关联规如此的挖掘算法是Apriori，该算法先挖出所有的频繁项集，然后，由频繁项集产生关联规如此，许多关联规如此频繁项集的挖掘算法都是由它演变而来的，关联规如此在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系，原因之一是它不受只选择一个因变量的限制，关联规如此在数据挖掘领域最典型的应用是购物篮分析。

大多数关联规如此挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系，所挖掘出的关联规如此量往往非常巨大，但是，并不是所有通过关联得到的属性之间的关系都有实际应用价值，对这些关联规如此进展有效的评价，筛选出用户真正感兴趣的，有意义的关联规如此尤为重要。

聚类分析是根据所选样本间关联的标准将其划分成几个组，同组内的样本具有较高的相似度，不同组的如此相异，常用的技术有分裂算法，凝聚算法，划分聚类和增量聚类。

聚类方法适合于探讨样本间的内部关系，从而对样本结构做出合理的评价，此外，聚类分析还用于对孤立点的检测。

有时进展聚类不是为了将对象相聚在一起而是为了更容易地使某个对象从其他对象中别离出来。

聚类分析已被应用于经济分析、模式识别、图像处理等多种领域，尤其在商业上，聚类分析可以帮助市场人员发现顾客群中所存在的不同特征组群。

聚类分析的技术关键除了算法的选择之外，就是对样本的度量标准的选择。

并非由聚类分析算法得到的类对决策都有效，在运用某一个算法之前，一般要先对数据的聚类趋势进展检验。

决策树学习是一种通过逼近离散值目标函数的方法，通过把实例从根结点排列到某个叶子结点来分类实例，叶子结点即为实例所属的分类。

树上的每个结点说明了对实例的某个属性的测试，该结点的每一个后继分支对应于该属性的一个可能值，分类实例的方法是从这电脑应用技术棵树的根结点开始，测试这个结点指定的属性，然后按照给定实例的该属性值对应的树枝向下移动。

决策树方法是要应用于数据挖掘的分类方面。

神经网络建立在自学习的数学模型根底之上，能够对大量复杂的数据进展分析，并可以完成对人脑或其他计算机来说极为复杂的模式抽取与趋势分析，神经网络既可以表现为指导的学习也可以是无指导聚类，无论哪种，输入到神经网络中的值都是数值型的。

人工神经元网络模拟人脑神经元结构，以MP模型和Hebb学习规如此为根底，建立三大类多种神经元网络，具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

前馈神经元网络以感知器网络、BP网络等为

代表，可以用于分类和预测等方面;

反应式网络以Hopfield网络为代表，用于联想记忆和优化计算;

自组织网络以ART模型、Kohonon模型为代表，用于聚类。

遗传算法是一种受生物进化启发的学习方法，通过变异和重组当前己知的最好假设来生成后续的假设。

每一步，通过使用目前适应性最高的假设的后代替代群体的某个局部，来更新当前群体的一组假设，来实现各个个体的适应性的提高。

遗传算法由三个根本过程组成:

繁殖（选择）是从一个旧种群（父代）选出生命力强的个体，产生新种群（后代）的过程;

交叉〔重组）选择两个不同个体〔染色体）的局部（基因）进展交换，形成新个体的过程;

变异（突变）是对某些个体的某些基因进展变异的过程。

在数据挖掘中，可以被用作评估其他算法的适合度。

粗糙集能够在缺少关于数据先验知识的情况下，只以考察数据的分类能力为根底，解决模糊或不确定数据的分析和处理问题。

粗糙集用于从数据库中发现分类规如此的根本思想是将数据库中的属性分为条件属性和结论属性，对数据库中的元组根据各个属性不同的属性值分成相应的子集，然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规如此。

所有相似对象的集合称为初等集合，形成知识的根本成分。

任何初等集合的并集称为准确集，否如此，一个集合就是粗糙的（不准确的）。

每个粗糙集都具有边界元素，也就是那些既不能确定为集合元素，也不能确定为集合补集元素的元素。

粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

支持向量机（SVM）是在统计学习理论的根底上开展出来的一种新的机器学习方法。

它基于结构风险最小化原如此上的，尽量提高学习机的泛化能力，具有良好的推广性能和较好的分类准确性，能有效的解决过学习问题，现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。

另外，支持向量机算法是一个凸优化问题，局部最优解一定是全局最优解，这些特点都是包括神经元网络在内的其它算法所不能与的。

支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

除上述方法外，还有把数据与结果转化和表达成可视化技术、云模型方法和归纳逻辑程序等方法。

事实上，任何一种挖掘工具往往是根据具体问题来选择适宜挖掘方法，很难说哪种方法好，那种方法劣，而是视具体问题而定。

对于数据挖掘，我们可以分为三个主要的阶段:

数据准备、数据挖掘、结果的评价和表达。

其中结果的评价和表达还可以细分为：

评估、解释模式模型、巩固、

运用知识。

数据库中的知识发现是一个多步骤的处理过程，也是这三个阶段的反复过程，

1.数据准备

KDD的处理对象是大量的数据，这些数据一般存储在数据库系统中，长期积累的结果。

但是往往不适合直接在这些数据上面进展知识挖掘，需要做数据准备工作，一般包括数据的选择（选择相关的数据）、净化（消除噪音、数据）、推测（推算缺失数据）、转换（离散值数据与连续值数据之间的相互转换，数据值的分组分类，数据项之间的计算组合等）、数据缩减（减少数据量）。

这些工作往往在生成数据仓库时己经准备妥当。

数据准备是KDD的第一个步骤。

数据准备是否做好将影响到数据挖掘的效率和准确度以与最终模式的有效性。

2.数据挖掘

数据挖掘是KDD最关键的步骤，也是技术难点所在。

研究KDD的人员中大局部都在研究数据挖掘技术，采用较多的技术有决策树、分类、聚类、粗糙集、关联规如此、神经网络、遗传算法等。

数据挖掘根据KDD的目标，选取相应算法的参数，分析数据，得到可能型号层知识的模式模型。

3.结果评价和表达

评估、解释模式模型:

上面得到的模式模型，有可能是没有实际意义或没有使用价值的，也有可能是其不能准确反映数据的真实意义，甚至在某些情况下是与事实相反的，因此需要评估，确定哪些是有效的、有用的模式。

评估可以根据用户多年的经验，有些模式也可以直接用数据来检验其准确性。

这个步骤还包括把模式以易于理解的方式呈现给用户。

巩固知识：

用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。

同时还要注意对知识做一致性检查，解决与以前得到的知识相互冲突、矛盾的堤防，使知识得到巩固。

运用知识：

发现知识是为了运用，如何使知识能被运用也是KDD的步骤之一。

运用知识有两种方法:

一种是只需要看知识本身所描述的关系或结果，就可以对决策提供支持;

另一种是要求对新的数据运用知识，由此可能产生新的问题，而需要对知识做进一步的优化。

KDD的过程可能需要屡次的循环反复，每一个步骤一旦与预期目标不符都要回到前面的步骤，重新调整，重新执行。

3、数据挖掘的潜在应用是十分广泛的:

政府管理决策、商业经营、科学研究和工业企业决策支持等个领域。

从科学研究方法学的角度看，科学研究可分为三类:

理论科学、实验科学和计算科学。

计算科学是现代科学的一个重要标志。

计算科学工作者主要和数据打交道，每天要分析各种大量的实验或观测数据。

随着先进的科学数据收集工具的使用，如观测卫星、遥感器、DNA分子技术等，数据量非常大，传统的数据分析工具无能为力，因此必须有强大的智能型自动数据分析工具才行。

数据挖掘在天文学上有一个非常著名的应用系统:

SKICAT（SkyImageCatalogingandAnalysisTool）。

它是美国加州理工学院喷气推进实验室（即设计火星探测器漫游者号的实验室）与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。

KICAT既是第一个获得相当成功的数据挖掘应用，也是人工智能技术在天文学和空间科学上第一批成功应用之一。

利用SKICAT,天文学家已发现了16个新的极其遥远的类星体，该项发现能帮助天文工作者更好地研究类星体的形成以与早期宇宙的结构。

数据挖掘在生物学上的应用主要集中于分子生物学特别是基因工程的研究上。

基因研究中，有一个著名的国际性研究课题——人类基因组计划。

据报道，1997年3月，科学家宣布已完成第一步计划:

绘制人类染色体基因图。

然而这仅仅是第一步，更重要的是对基因图进展解释从而发现各种蛋白质（有10,000多种不同功能的蛋白质）和RNA分子的结构和功能。

近几年，通过用计算生物分子系列分析方法，尤其是基因数据库搜索技术己在基因研究上作出了很多重大发现。

在商业领域特别是零售业，数据挖掘的运用是比拟成功的。

由于MIS系统在商业的普遍使用，特别是码技术的使用，可以收集到大量关于购置情况的数据，并且数据量在不断激增。

利用数据挖掘技术可以为经营管理人员提供正确的决策手段，这样对促进销售与提高竞争力是大有帮助的。

在金融领域，数据量是非常巨大的，银行、证券公司等交易数据和存储量都是很大的。

而对于信用卡欺诈行为，银行每年的损失非常大。

因此，可以利用数据挖掘对客户信誉进展分析。

典型的金融分析领域有投资评估和股票交易市场预测。

数据挖掘在医学上的应用十分广泛，从分子制药到医疗诊断，都可利用数据挖掘的手段来提高效率和效益。

在药物合成方面，通过对药物分子化学结构的分析，可以确定药物中哪种原子或原子基因对什么病能够发挥作用，这样在合成新药时，可根据新药的分子结构确定该药将有可能治疗哪一种病。

数据挖掘还可用于工业、农业、交通、电信、军事、Internet等其它行业。

数据挖掘具有广泛的应用前景，它既可应用于决策支持，也可应用于数据库管理系统（DBMS）中。

数据挖掘作为决策支持和分析的工具，可以用于构造知识库。

在DBMS中，数据挖掘可以用于语义查询优化、完整性约束和不一致检验等。

4、由于数据、数据挖掘任务和数据挖掘方法的多样性，给数据挖掘提出了许多挑战性的

课题。

同时，数据挖掘语言的设计，高效而有用的数据挖掘方法和系统的开发，交互式和集成的数据挖掘环境的建立，以与应用数据挖掘技术解决大型应用问题，都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要问题。

现今，数据挖掘的开展趋势主要是以下几方面：

应用的探索；

可伸缩的数据挖掘方法；

数据挖掘与数据库系统、数据仓库系统和Web数据库系统的集成；

数据挖掘语言的标准化；

可视化数据挖掘；

复杂数据类型挖掘的新方法；

Web挖掘；

数据挖掘中的隐私保护与信息安全。

目前，数据挖掘技术虽然得到了一定程度的应用，并取得了显著成效，但仍存在着许多尚未解决的问题，例如数据的预处理、挖掘算法、模式识别和解释、可视化问题等。

对于业务过程而言，数据挖掘最关键的问题是如何结合业务数据时空特点，将挖掘出知识表达出来，即时空知识表达和解释机制问题。

随着人们对数据挖掘技术的深人研究，数据挖掘技术必将在更加广泛的领域得到应用，并取得更加显著的效果。

展开阅读全文