《数据仓库与数据挖掘第一章概述(SUN)》.pptx

上传人:A**** 文档编号:18672910 上传时间:2023-08-28 格式:PPTX 页数:84 大小:1.27MB
下载 相关 举报
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第1页
第1页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第2页
第2页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第3页
第3页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第4页
第4页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第5页
第5页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第6页
第6页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第7页
第7页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第8页
第8页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第9页
第9页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第10页
第10页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第11页
第11页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第12页
第12页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第13页
第13页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第14页
第14页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第15页
第15页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第16页
第16页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第17页
第17页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第18页
第18页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第19页
第19页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》.pptx_第20页
第20页 / 共84页
亲,该文档总共84页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

《数据仓库与数据挖掘第一章概述(SUN)》.pptx

《《数据仓库与数据挖掘第一章概述(SUN)》.pptx》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘第一章概述(SUN)》.pptx(84页珍藏版)》请在冰点文库上搜索。

《数据仓库与数据挖掘第一章概述(SUN)》.pptx

数据仓库与数据数据仓库与数据挖掘挖掘孙家泽孙家泽数据挖掘数据挖掘关于本课程关于本课程1.数据挖掘融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个学科领域的知识。

2.本课程系统地介绍了数据挖掘的概念、理论及其发展、重点介绍了数据挖掘技术及其在实践中的应用。

数据挖掘数据挖掘课程目标课程目标1.通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过程、数据仓库的概念、OLAPOLAP与数据挖掘的关系。

2.掌握数据挖掘的常用技术:

决策树、神经网络、关联规则、聚类分析、统计学习等。

3.熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖掘技术解决问题的能力。

数据挖掘数据挖掘课程体系课程体系1.数据挖掘概述2.数据仓库与OLAP技术3.数据挖掘技术4.数据挖掘应用5.数据挖掘工具6.数据挖掘实例数据挖掘数据挖掘学习方法学习方法l课堂讲授及自学n理解数据挖掘的基本概念和原理。

l充分利用因特网,查阅相关资料n进一步拓展知识面l熟悉常用的数据挖掘软件,提高数据挖掘的基本处理能力和动手能力。

数据挖掘数据挖掘成绩考核成绩考核l考试成绩由平时考勤+课堂讨论大作业数据挖掘数据挖掘参考资料参考资料1.韩家炜,数据挖掘:

概念与技术(第二版),中文版,机械工业出版社2.王欣等,SQLServer2005数据挖掘实例分析,中国水利水电出版社3.数据挖掘.实用机器学习工具和技术4.WEKA手册5.http:

/u数据挖掘数据挖掘需要使用的部分软件需要使用的部分软件lSPSSlWEKAlSQLServer2005标准版lExcel数据挖掘数据挖掘第第1章章数据挖掘概述数据挖掘概述数据挖掘数据挖掘数据挖掘数据挖掘啤酒与尿布啤酒与尿布数据挖掘数据挖掘引例引例:

啤酒与尿布啤酒与尿布l沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。

l发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。

l分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。

l得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。

l从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决策。

数据挖掘数据挖掘引言引言l从大量数据中提取出隐藏在其中的有用信息l数据挖掘,也可以称为数据库中的知识发现(KnowledgeDiscoverDatabase,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。

数据挖掘数据挖掘本章内容本章内容l一、数据挖掘技术的由来l二、数据挖掘的定义l三、数据挖掘发现的知识类型l四、数据挖掘对象l五、数据挖掘任务l六、数据挖掘分类l七、数据挖掘模型l八、数据挖掘过程数据挖掘数据挖掘数据挖掘数据挖掘一、数据挖掘技术的由来一、数据挖掘技术的由来l信息爆炸但知识贫乏n纽约时报一周报道的信息总量,比十八世纪一个人一生接触的信息总量还多n“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿。

”数据挖掘数据挖掘可怕的数据有用的知识一、数据挖掘技术的由来一、数据挖掘技术的由来l数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。

它是一个新兴的,面向商业应用的AI研究。

(AI(ArtificialIntelligence,人工智能)l1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。

l随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。

最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。

数据挖掘数据挖掘一、数据挖掘技术的由来一、数据挖掘技术的由来l现在,人们往往不加区别地使用两者。

KDD常常被称为数据挖掘(DataMining),实际两者是有区别的。

一般将KDD中进行知识学习的阶段称为数据挖掘(DataMining),数据挖掘是KDD中一个非常重要的处理步骤。

l数据挖掘是近年来出现的客户关系管理(CustomerRelationshipManagement,CRM)、商业智能(BusinessIntelligence,BI)等热点领域的核心技术之一。

数据挖掘数据挖掘一、数据挖掘技术的由来一、数据挖掘技术的由来l支持数据挖掘技术的基础n海量数据搜索n强大的多处理器计算机n数据挖掘算法数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l技术角度的定义n数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

l该定义包括好几层含义:

n数据源必须是真实的、大量的、含噪声的;n发现的是用户感兴趣的知识;n发现的知识要可接受、可理解、可运用;n并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l关于知识的解释n从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。

n这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。

n实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。

最好能用自然语言表达所发现的结果。

数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l模式:

它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。

模式按功能可以分为预测型模式和描述型模式。

在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。

数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l“从数据中发现有用模式”历来有很多称法,如:

n数据挖掘(datamining)n知识提取(knowledgeextraction)n信息发现(informationdiscovery)n信息收获(informationharvesting)n数据考古(dataarchaeology)n数据模式处理(datapatternprocessing)l“数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。

数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l商业角度的含义n数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

l数据挖掘对于企业的价值n简言之,数据挖掘其实是一类深层次的数据分析方法。

因此,数据挖掘可以描述为:

按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。

数据挖掘数据挖掘二、数据挖掘的定义二、数据挖掘的定义l从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集(20世纪60年代)“过去五年中我的总”收入是多少?

计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(20世纪80年代)“在新英格兰的分部去年三月的销售额”是多少?

关系数据库,结构化查询语言,ODBC、Oracle、Sybase、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库、决策支持(20世纪90年代)“在新英格兰的分部去年三月的销售额是多少?

波士顿据此可得出什么结”论?

联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?

为什”么?

高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息数据挖掘数据挖掘数据挖掘与其他科学的关系l数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。

l此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。

数据挖掘数据挖掘数据挖掘与其他科学的关系数据挖掘受多学科的影响数据挖掘数据挖掘数据挖掘与传统数据分析数据挖掘与传统数据分析l数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是:

n在没有明确假设的前提下去挖掘信息、发现知识。

数据挖掘所得到的信息应具有先前未知,有效和可用三个特征。

(传统是假设驱动、数据挖掘是发现驱动)数据挖掘数据挖掘数据挖掘和数据仓库数据挖掘和数据仓库l数据仓库和数据集市是数据挖掘的一种数据源l数据挖掘是数据仓库的一个应用l对于数据挖掘,数据仓库不是必需的。

数据挖掘数据挖掘数据挖掘和在线分析处理数据挖掘和在线分析处理(OLAP)lOLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。

OLAP分析过程在本质上是一个演绎推理的过程。

l数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。

他在本质上是一个归纳的过程。

l数据挖掘和OLAP具有一定的互补性。

数据挖掘数据挖掘数据挖掘、机器学习和统计数据挖掘、机器学习和统计l数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。

l数据挖掘不是为了替代传统的统计分析技术。

相反,他是统计分析方法学的延伸和扩展。

l数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题数据挖掘数据挖掘数据挖掘的本质l一种深层次的数据分析方法。

l数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。

l现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。

数据挖掘数据挖掘实施数据挖掘的目的l不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。

l所有企业面临的一个共同问题是:

企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。

数据挖掘数据挖掘三、数据挖掘发现的知识类型三、数据挖掘发现的知识类型l广义知识l关联知识l分类知识l预测知识l偏差知识。

数据挖掘数据挖掘广义知识广义知识l广义知识指类别特征的概括性描述知识。

n根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。

l广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。

l描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。

如当月公司利润总额、比较不同区域的销售量等。

l广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。

数据挖掘数据挖掘关联知识关联知识l数据关联是数据库中存在的一类重要的可被发现的知识。

若两个或多个变量的取值之间存在某种规律性,就称为关联。

l关联知识可分为简单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。

l典型例子是购物篮分析l发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树)数据挖掘数据挖掘案例:

某超市的数据挖掘应用案例:

某超市的数据挖掘应用l美国的超市有这样的系统:

当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:

我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗?

l这句话决不是一般的促销。

因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。

结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。

l这不是什么神奇的科学算命,而是利用数据挖掘中的关联规则算法实现的系统。

数据挖掘数据挖掘分类知识分类知识l分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。

l典型应用:

客户细分。

例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡。

l算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等。

数据挖掘数据挖掘预测知识预测知识l预测型知识指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。

l一个典型的例子是市场预测问题,数据挖掘从过去有关促销的数据中寻找在未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。

l基于统计学习的回归分析法,还有基于现代智能计算的神经网络、遗传算法等各类时间序列分析法。

数据挖掘数据挖掘偏差知识偏差知识l偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象。

l偏差即异常,在数据挖掘中有时也称之为“孤立点”,可以用来发现“小的模式”l偏差知识挖掘的一个典型应用是检测信用卡欺诈。

l基于统计的方法、基于距离的方法和基于偏离的方法数据挖掘数据挖掘案例:

国内某电信公司利用数据挖掘预测客户知识案例:

国内某电信公司利用数据挖掘预测客户知识2004年,某电信公司邀请国际某著名咨询公司进行市场营销再造项目,将数据挖掘用于它的三个业务领域:

客户管理、网络/产品/服务管理、市场/财务管理;公司将数据挖掘的重点放在了客户管理。

在电信市场竞争越来越激烈的今天,即使在扩大其客户群的时候,电信运营商和其它代理商也必须密切监视他们的现有客户,并采用各种营销方法来留住这些客户。

电信公司期望通过数据仓库的实施和数据挖掘的应用,能够利用经营分析系统进行客户分群、客户获取、客户行为分析、客户流失分析等。

如今,电信公司已经能够利用现有的客户数据来总结客户行为的特点,并预测客户的下一步行为。

例如,为了对付日益严重的客户流失或业务流失状况,电信公司采用基于决策树的方法来分析客户的流失特性,以便采取针对性的营销措施,挽留有价值的客户、减少客户流失。

数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象1.关系数据库n数据库中数据的特点如下:

1)数据动态性、2)数据的不完全性、3)噪声数据、4)数据类型不一致、5)异构性、6)数据冗余性、7)数据稀疏性n由于数据库中的数据具有以上特点,使其在挖掘过程中难以直接使用,因此在进行数据挖掘以前必须对数据进行预处理。

数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象2.数据仓库n数据仓库的特点如下:

1)面向主题、2)集成的数据、3)不可更新、4)随时间不断变化n高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。

数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象3文本l文本是非结构化或半结构化的数据。

l文本分析包括:

n1)关键词或特征提取n2)相似检索n3)文本聚类n4)文本分类数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象4多媒体数据l图像、音频、视频数据是典型的多媒体数据。

l多媒体数据广泛存在于生活、医学、军事、娱乐等领域,l目前,对于多媒体数据的挖掘主要有特征提取、基于内容的相似检索等。

数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象5Web数据lWeb使用模式挖掘:

在Web环境中,文档和对象一般都是通过链接来便于用户访问。

捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。

lWeb结构挖掘:

是挖掘Web的链接结构,并找出关于某一主题的权威网站。

lWeb内容挖掘:

是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。

数据挖掘数据挖掘四、数据挖掘对象四、数据挖掘对象6复杂类型的数据1)空间数据库n如地理信息数据、卫星图像数据、地下管道、下水道、及各类地下建筑分布数据等。

n对空间数据的挖掘可以为城市规划、生态规划、道路修建提供决策支持。

2)时间序列数据n主要用于存放与时间相关的数据,它可用来反映随时间变化的即时数据或不同时间发生的不同事件。

n例如,连续存放即时的股票交易信息、卫星轨道信息等。

n对时间序列数据的挖掘可以发现事件的发展趋势、演变过程和隐藏特征,这些信息对制定计划、决策和预警是非常有用的。

数据挖掘数据挖掘五、数据挖掘任务五、数据挖掘任务l概念描述l分析关联l分类与估值l聚类l孤立点分析l时间序列分析l预测数据挖掘数据挖掘概念描述概念描述l概念描述就是通过对某类数据对象进行汇总、分析和比较,获得对此类对象内涵的描述,并概括这类对象的有关特征。

l概念描述可以通过下述方法得到:

数据特征化和数据区分n数据特征化的输出可以采用饼图、柱状图、曲线、多维数据立方体、含交叉表的多维表等形式,描述结果也可以用概化关系或规则形式表示n数据区分的输出类似于数据特征化,但它应该包括比较度量,以帮助区分目标类和比较类。

数据挖掘数据挖掘概念描述概念描述l例1:

我们收集移动电话费月消费额超出1000元的客户资料,然后利用数据挖掘进行分析,获得这类客户的总体性描述:

3550岁,有工作,月收入5000元以上,拥有良好的信用度;l例2:

对比移动电话费月消费额超出1000元的客户群与移动电话费月消费额低于100元的客户群。

利用数据挖掘可作出如下描述:

移动电话月消费额超出1000元的客户80以上年龄在3550岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60以上要么年龄过大要么年龄过小,且月收入2000元以下。

数据挖掘数据挖掘关联分析关联分析l关联分析就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。

l例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:

support=2%,confidence=60%数据挖掘数据挖掘分类与估值分类与估值l分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。

l类的内涵描述分为:

特征描述和辨别性描述。

n特征描述是对类中对象的共同特征的描述。

n辨别性描述是对两个或多个类之间区别的描述。

l分类过程分两步:

n第一步,建立一个模型,描述预定的数据类或概念集。

n第二步,使用模型对未分类的对象进行分类。

l分类挖掘主要技术有决策树、贝叶斯学习方法和神经网络方法等。

数据挖掘数据挖掘分类与估值分类与估值l估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。

数据挖掘数据挖掘聚类聚类l聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组。

l聚类与分类不同,它们的区别如下:

n第一,分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。

n第二,在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。

l常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等。

数据挖掘数据挖掘孤立点分析孤立点分析l数据库中可能包含一些数据对象,它们与集合中其它数据的一般行为或模型不一致,这些数据对象称为孤立点。

l孤立点可以使用统计试验检测。

它假定一个数据的分布或概率模型,并使用距离度量,到其它数据对象的距离很远的对象被视为孤立点。

l基于偏差的方法通过考察一群对象主要特征上的差别识别孤立点,而不是使用统计或距离度量。

l孤立点分析通常可以作为聚类分析的副产品,根据聚类分析结果,含有对象个数少于设定阈值的聚类中的事物看作是孤立点。

数据挖掘数据挖掘时间序列分析时间序列分析l时间序列分析是描述行为随时间变化的对象的规律或趋势,并对其建模。

l包括与时间相关数据的特征、区分、关联、分类或聚类,l根据分析的不同特点分为时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

l如股票市场的每日波动、动态产品加工过程、科学实验、医学治疗等。

数据挖掘数据挖掘预测预测l预测是从历史数据找出变化规律,建立模型,并用此模型预测未来数据种类、特征等。

l用分类预测离散数据l用回归分析预测连续数据。

n典型的回归分析是利用大量的历史数据,建立线性或非线性回归方程。

n根据回归模型,只要输入自变量的值,就可以求出因变量的值,达到对因变量的预测。

数据挖掘数据挖掘六、数据挖掘分类六、数据挖掘分类数据挖掘数据挖掘六、数据挖掘分类六、数据挖掘分类2.按数据挖掘对象分类n对数据库进行挖掘n文本数据挖掘n多媒体数据挖掘nWeb数据挖掘。

数据挖掘数据挖掘六、数据挖掘分类六、数据挖掘分类3.根据挖掘的知识类型分类n概念描述n关联分析n分类n预测n聚类分析n孤立点分析数据挖掘数据挖掘六、数据挖掘分类六、数据挖掘分类4按挖掘方法和技术分类1)归纳学习类2)仿生计算类3)公式发现类4)统计分析类5)模糊数学类6)可视化技术类数据挖掘数据挖掘数据挖掘技术分类数据挖掘技术分类数据挖掘数据挖掘验证驱动挖掘验证驱动挖掘发现驱动挖掘发现驱动挖掘SQLSQL生成器生成器查询工具查询工具OLAP描述描述预测预测可视化可视化聚类聚类关联规则关联规则顺序关联顺序关联汇总描述汇总描述分类分类统计回归统计回归时间序列时间序列决策树决策树神经网路神经网路数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型l为了使数据挖掘技术在产业界得到更好的应用,欧洲委员会联合一些数据挖掘软件厂商开发了CRISP-DM(CrossIndustryStandardProcessforDataMining)模型,目的是把数据挖掘的过程标准化,使数据挖掘项目的实施速度更快、成本更低、更可靠并且更容易管理。

lCRISP-DM模型最先在1996年被提出,当前的白皮书版本是1.0。

数据挖掘数据挖掘CRISP-DM(CrossIndustryStandardProcessforDataMining)模型)模型数据挖掘数据挖掘业务理解数据理解数据准备建立模型模型评估系统部署数据七、数据挖掘模型七、数据挖掘模型lCRISP-DM模型中,数据挖掘包括六个步骤:

1.业务理解(BusinessUnderstanding)阶段具体地,包括:

I.确定业务目标II.项目可行性分析III.确定数据挖掘目标IV.提出初步的项目计划数据挖掘数据挖掘七、数据挖掘模型七、数据挖掘模型l确定业务目标:

分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;l项目可行性分析:

分析拥有的资源,条件和限制,风险估计,成本和效益估计;l确定数据挖掘目标:

明确确定数据挖掘的目标和成功标准,数据挖掘的目

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 求职职场 > 职业规划

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2