大数据挖掘地应用现状及发展.docx

上传人:b****2 文档编号:16868742 上传时间:2023-07-19 格式:DOCX 页数:10 大小:28.12KB
下载 相关 举报
大数据挖掘地应用现状及发展.docx_第1页
第1页 / 共10页
大数据挖掘地应用现状及发展.docx_第2页
第2页 / 共10页
大数据挖掘地应用现状及发展.docx_第3页
第3页 / 共10页
大数据挖掘地应用现状及发展.docx_第4页
第4页 / 共10页
大数据挖掘地应用现状及发展.docx_第5页
第5页 / 共10页
大数据挖掘地应用现状及发展.docx_第6页
第6页 / 共10页
大数据挖掘地应用现状及发展.docx_第7页
第7页 / 共10页
大数据挖掘地应用现状及发展.docx_第8页
第8页 / 共10页
大数据挖掘地应用现状及发展.docx_第9页
第9页 / 共10页
大数据挖掘地应用现状及发展.docx_第10页
第10页 / 共10页
亲,该文档总共10页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

大数据挖掘地应用现状及发展.docx

《大数据挖掘地应用现状及发展.docx》由会员分享,可在线阅读,更多相关《大数据挖掘地应用现状及发展.docx(10页珍藏版)》请在冰点文库上搜索。

大数据挖掘地应用现状及发展.docx

大数据挖掘地应用现状及发展

 

数据挖掘与数据仓库

 

学校:

班级:

学号:

某某:

指导教师:

 

日期:

2013年6月16日

 

数据挖掘的应用现状与开展

 

引言近十几年来,随着数据库系统的广泛流行以与计算机技术的快速开展,人们利用信息技术生产和搜集数据的能力大幅度提高。

千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。

这一趋势将持续开展下去。

大量信息在给人们带来方便的同时也带来了一大堆的问题:

第一是信息过量,难以消化;第二是信息真假难以识别;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。

面对这种状况,一个新的挑战被提出来:

如何才能不被信息的汪洋大海所淹没,从中与时发现有用的知识,提高信息利用率呢?

这时出现了新的技术——数据挖掘〔DataMining〕技术便应用而生了。

数据挖掘是信息技术的进化,其研究的目的主要是发现知识、使数据可视化、纠正数据。

中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比拟少。

本文具体分析了国内外数据挖掘的开展现状和趋势,

发现了其存在的问题,并且对其的理论研究和实际应用提出了一些建议。

根本概念

1、数据挖掘

数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。

发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进展数据自身的维护。

数据挖掘借助了多年来数理统计技术和人工智能以与知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。

2、数据挖掘技术

数据挖掘就是对观测到的数据集进展分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。

它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

3、数据挖掘功能

数据挖掘通过预测未来趋势与行为,做出预测性的、基于知识的决策。

数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类:

〔1〕关联分析〔AssociationAnalysis〕关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规如此和序列模式。

关联规如此是发现一个事物与其他事物间的相互关联性或相互依赖性。

〔2〕聚类输入的数据并无任何类型标记,聚类就是按一定的规如此将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差异很大。

聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。

聚类技术主要包括传统的模式识别方法和数学分类学。

〔3〕自动预测趋势和行为数据挖掘自动在大型数据库中进展分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进展大量手工分析的问题如今可以迅速直接由数据本身得出结论。

〔4〕概念描述对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述聚集的数据集。

概念描述就是对某类对象的内涵进展描述并概括出这类对象的有关特征。

概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。

生成一个类的特征性只涉与该类对象中所有对象的共性。

生成区别性描述的方法很多,如决策树方法、遗传算法等。

〔5〕偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。

偏差包括很多潜在的知识,如分类中的反常实例、不满足规如此的特例、观测结果与模型预测值的偏差、量值随时间的变化等。

偏差检测的根本方法是寻找观测结果与参照值之间有意义的差异。

这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

数据挖掘对象

数据挖掘的对象主要是数据库数据、数据仓库数据和事务数据。

随着数据挖掘技术的开展,逐步进入到空间数据库,时态数据库,文本数据库,多媒体数据库,环球网WEB等。

文字、音频、图象、视频等多媒体数据已逐渐成为信息领域的重要表现形式。

音频、视频的数据量很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难的。

目前,对多媒体数据的处理只能在存取,编辑,集成,快进快退等根本操作上,对多媒体信息的检索仅靠文件标识、关键字等进展检索,局限性很大。

目前兴起的基于内容的多媒体检索,通过实例的查询方式,检索相似图象,音频,视频信息,基于内容的音频、视频信息的聚类、分类、相似查询等,已成为研究的热点。

一般过程

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:

广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差异的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。

所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

知识发现过程由以下步骤的迭代序列组成:

1、数据清理:

消除噪声和删除不一致数据;

2、数据集成:

多种数据源可以组合在一起;

3、数据选择:

从数据库中提取与分析任务相关的数据;

4、数据变换:

通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式;

5、数据挖掘:

根本步骤,使用智能方法提取数据模式;

6、模式评估:

根据某种兴趣度度量,识别代表知识的真正有趣的模式;

7、知识表示:

使用可视化和知识表示技术,向用户提供挖掘的知识。

主要技术与方法

1、统计学:

研究数据的收集、分析、解释和表示。

2、机器学习:

考察计算机如何基于数据数据学习。

其主要研究领域之一是,计算机程序基于数据自动的学习识别复杂的模式,并做出智能决断。

3、数据库系统与数据仓库:

〔1〕数据库系统研究关注为单位和最终用户创建、维护和使用数据库;〔2〕数据仓库集成来自多种数据源和各个时间段的数据。

4、信息检索:

搜索文档或文档某某息的科学。

应用的领域

 数据挖掘已在各个部门得到广泛的应用,并收到明显的效益。

下表是摘自Kdnuggets.的关于常用数据挖掘技术应用领域的一份调查。

Banking(37)

13%

Bioinformatics/Biotech(27)

10%

DirectMarketing/Fundraising(29)

10%

emerce/Web(15)

5%

Entertainment/News(4)

1%

FraudDetection(24)

9%

Insurance(23)

8%

Investment/Stocks(8)

3%

Manufacturing(5)

2%

Medical/Pharma(16)

6%

Retail(17)

6%

Scientificdata(24)

9%

Security(6)

2%

SupplyChainAnalysis(3)

1%

Telemunications(21)

8%

Travel(5)

2%

Other(12)

4%

None(3)

1%

此表说明了数据挖掘软件应用主要集中在以下领域:

1、金融方面:

银行信用卡和保险行业,预测存/贷款趋势,优化存/贷款策略,用DM将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动。

2、生物信息:

基因工程中的染色体、基因序列的识别、分析。

基因挖掘、基因表达路径分析、基因表达相似性分析、基因表达共发生分析。

制药、生物信息、科学研究等。

3、直销市场〔即零售业/市场营销〕:

是数据挖掘技术应用最早也是最重要的领域,DM用于顾客购货篮的分析可以协助货架布置,促销活动时间,促销商品组合以与了解滞销和畅销商品状况等商业活动。

通过对一种厂家商品在各连锁店的市场共享分析,客户统计以与历史状况的分析,可以确定销售和广告业务的有效性。

4、在客户关系管理方面:

DM能找出产品使用模式或协助了解客户行为,从而可以改良通道管理〔如银行分支和ATM等〕。

又如正确时间销售〔RightTimeMarKeting〕。

基于顾客生活周期模型来实施的产品推荐、客户细分、客户流失、客户利润、客户响应等。

5、电子商务:

用于在线交互式营销系统经营模式、市场策略与效果分析,WEB广告效果分析,在线购物的消费者行为分析。

结构优化、网页推荐、商品推荐等。

6、在过程控制/质量监视保证方面:

DM协助管理大数量变量之间的相互作用,DM能自动发现出某些不正常的数据分布,暴露制造和装配操作过程中变化情况和各种因素,从而协助质量工程师很快地注意到问题发生X围和采取改正措施。

7、在远程通讯部门:

基于DM的分析协助组织策略变更以适应外部世界的变化,确定市场变化模式以指导销售计划.在网络容量利用方面,DM能提供对客户组类服务使用的结构和模式的了解,从而指导容量计划人员对网络设施作出最优投资决策。

8、化学/制药行业:

从各种文献资料总自动抽取有关化学反响的信息,发现新的有用化学成分。

在遥感领域针对每天从卫星上与其它方面来的巨额数据,对气象预报,臭氧层监测等能起很大作用。

9、军事方面:

使用DM进展军事信息系统中的目标特征提取、态势关联规如此挖掘等。

  总之,DM可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等各个企事业单位与国防科研上。

据报导,DM的投资回报率有达400%甚至10倍的事例。

当前国际现状

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。

迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会开展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以与多种学科之间的相互渗透。

其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

目前,数据挖掘的研究方面主要有:

数据库知识发现方面,将知识发现〔KDD〕与数据库系统、数据仓库系统和Web数据库系统严密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克制现存算法的计算性瓶颈,如注重对Bayes〔贝叶斯〕方法以与Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。

世界上研究数据挖掘的组织、机构或大学很多。

比拟著名的如卡内基梅隆大学〔有机器制造DM、多媒体数据库DM、互连网DM三个研究中心〕、斯坦福大学、麻省理工学院。

当前国内现状

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。

1993年国家自然科学基金首次支持我们对该领域的研究项目。

目前,国内的许多科研单位和高等院校竞相开展知识发现的根底理论与其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。

其中,系统工程研究所对模糊方法在知识发现中的应用进展了较深入的研究,大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、某某大学、中国科技大学、中科院数学研究所、某某大学等单位开展了对关联规如此开采算法的优化和改造;某某大学、某某联合大学和某某交通大学等单位探讨、研究了非结构化数据的知识发现以与Web数据挖掘。

存在的问题

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。

正是这些局限性,促使数据挖掘技术进一步的开展:

〔1〕挖掘的对象。

数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

〔2〕数据丢失问题。

因大局部数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

〔3〕多种形式的输入数据。

目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

〔4〕网络与分布式环境的KDD问题。

随网络的开展,资源的丰富,技术人员各自独立处理别离数据库的工作方式应是可协作的。

促进数据挖掘在中国开展的建议1、加强对复杂数据的挖掘技术的研究,目前数据挖掘的所处理的数据类型已经由简单的结构化数据开展到复杂的半结构化数据与非结构化数据,并且由单维、低维上升为多维、高维。

数据挖掘技术开展的整体趋势由处理简单的挖掘问题逐步到解决复杂的挖掘问题。

2、加强对数据挖掘应用系统和对算法测试的研究。

目前国内关于数据挖掘理论研究较多,但对数据挖掘应用系统和算法测试的研究方面较少,在算法的性能改良方面,可以采用国际上相关研究所采用的一样数据集对现有的算法和新改良的算法进展比照测试,以检验新算法的合理性和有效性。

除了选择人工测试数据集外最好能够采用真实测试数据集。

3、加强对挖掘结果的有效性研究。

由于计算机软硬件技术的快速开展,今后的算法研究将更多的集中在挖掘结果的有效性上,现在的一些算法所花费的时间已以秒计算了,但是其挖掘结果的数量却远远超出了可以理解的X围。

对于挖掘结果的有效性需要有科学的方法加以评估。

此外提高算法的可伸缩性、对算法的动态维护和基于约束的挖掘算法等也都是主要的研究方向。

4、多种数据挖掘方法的结合使用。

数据挖掘的方法各有其优缺点,很多模式特别是与分类有关的模式,可以用不同的算法来实现,以适应不同的需求环境。

因此集成的数据挖掘系统应该能够提供多种途径来解决复杂问题。

5、重视数据挖掘技术的实际应用。

目前国内有关应用的成功案例较少。

有关方面可以借鉴其他先进国家的经验,引入成功系统进展本土化研究等。

实际数据挖掘应用的开发有助于对数据挖掘的理解,从而更好地改良数据挖掘的技术。

6、随着数据仓库技术的进一步开展,并行分布式数据挖掘算法的研究需要加强。

7、加强人机交互能力的完善解释机制。

需要把用户所要解决的问题方便地转化为数据挖掘技术人员能够理解并解决的问题,并将挖掘结果以用户能理解的方式表达出来。

对算法的研究也将趋向于简单化和易于理解。

8、多语言挖掘,对于处理多种语言的工具研究。

9、保护隐私权的研究。

数据挖掘能从不同的角度与层次上看待数据,这将有可能影响数据的私有性和安全性,如何在保护隐私权的情况下又能够进展充分的数据挖掘是一个重要的研究方向。

另外需要指出的是,中国在技术研究中对技术本身研究较多,而对技术经济问题研究较少。

数据挖掘技术归根结底是一种手段或工具,对于数据挖掘技术的研究是为了更好的促进社会经济的开展。

如何对数据挖掘技术系统进展有效的管理和利用是一个值得关注的重要问题。

开展趋势

数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:

应用探索;课伸缩的和交互的数据挖掘方法;与搜索引擎、数据库系统、数据仓库和云计算系统的集成;挖掘社会和信息网络;挖掘时间空间数据移动对象和物联网系统;挖掘多媒体、文本和Web数据;挖掘生物学和生物药学数据;数据挖掘与软件工程和系统工程;可视和听觉数据挖掘;分布式数据挖掘和实时数据流挖掘;数据挖掘哄的隐私保护和信息安全。

小结

本文通过各方面资料的查找,介绍了根本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用与国内外现状,也结合当前的研究成果,分析了数据挖掘的领域与开展趋势。

数据挖掘技术是一个年轻而充满希望的研究领域。

经过十多年来的风雨历程,总的来说,数据挖掘理论与技术研究下逐步走向成熟。

其应用也已经深入到众多的领域,在各行业的应用越来越广泛;数据挖掘软件功能日益强大、完善,正向多技术综合与集成化方向开展。

并以其显著的经济效益推动着其应用的迅速普与,同时又以强大的市场需求剌激着其理论与技术研究的不断升温,其相关软件的开发产业正以前所未有的速度迅速崛起,其理论或技术的重大突破将导致导致信息社会发生质的飞跃。

参考书籍

1、数据挖掘概念与技术〔原书第三版〕机械工业

2、网上相关数据挖掘资料

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 临时分类 > 批量上传

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2