第一章:数据挖掘和数据仓库概述.ppt

上传人:wj 文档编号:11674350 上传时间:2023-06-02 格式:PPT 页数:72 大小:1.45MB
下载 相关 举报
第一章:数据挖掘和数据仓库概述.ppt_第1页
第1页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第2页
第2页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第3页
第3页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第4页
第4页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第5页
第5页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第6页
第6页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第7页
第7页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第8页
第8页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第9页
第9页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第10页
第10页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第11页
第11页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第12页
第12页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第13页
第13页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第14页
第14页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第15页
第15页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第16页
第16页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第17页
第17页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第18页
第18页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第19页
第19页 / 共72页
第一章:数据挖掘和数据仓库概述.ppt_第20页
第20页 / 共72页
亲,该文档总共72页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

第一章:数据挖掘和数据仓库概述.ppt

《第一章:数据挖掘和数据仓库概述.ppt》由会员分享,可在线阅读,更多相关《第一章:数据挖掘和数据仓库概述.ppt(72页珍藏版)》请在冰点文库上搜索。

第一章:数据挖掘和数据仓库概述.ppt

第一章数据仓库与数据挖掘概述李晋宏,北方工业大学信息工程学院,北方工业大学信息工程学院,内容,数据挖掘引论数据仓库引论数据挖掘的应用常用数据挖掘工具,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的由来机器学习知识工程机器学习,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的由来机器学习将一些已知的并以被成功解决的问题作为范例输入计算机,机器通过学习这些范例,总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类问题最早始于20世纪60年代如Rosenblate的感知机,Sammel的西洋跳棋程序,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的由来知识工程直接为计算机输入已被代码化的规则,计算机通过使用这些规则来解决某些问题如专家系统,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的由来机器学习80年代神经网络理论的发展(BP算法)成果应用于处理大型商业数据库Quiulan的ID3(1983年)决策树方法Rumelhart反向传播神经网络BP模型(1985年),北方工业大学信息工程学院,数据挖掘引论,数据挖掘的由来1989年,在美国底特律召开的第十一届国际联合人工智能学术会议上首次提到知识发现(knowledgediscoveryindatabase,KDD)1995年,在加拿大蒙特利尔召开了首届KDD国际学术年会,数据挖掘技术被分为工程领域的数据挖掘和科研领域的知识发现,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程从数据中挖掘知识知识发现数据分析数据融合决策支持等相似术语,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义数据挖掘的原始数据结构化的,如关系数据库中的数据半结构化的,如文本,图形,图像数据等数据挖掘的方法数据的非数据的演绎的归纳的,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义挖掘出的知识用于信息管理查询优化决策支持过程控制等,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义数据挖掘步骤,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义数据挖掘步骤确定业务对象:

理解数据和实际的业务,提出问题,对目标有明确的定义数据准备:

占工作量的60%数据选择:

所有与业务对象有关的内部、外部数据信息数据预处理:

整理,清洗不完全的数据数据转换:

数据格式化,编码转换等,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义数据挖掘步骤数据挖掘:

选择合适的挖掘算法,自动完成结果分析与知识同化结果分析:

可视化技术,对挖掘结果进行解释并评估知识同化:

将分析所得到的知识集成到业务信息系统的组织结构中去,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义数据挖掘步骤JiaweiHan,DataCleaning,DataIntegration,DataWarehouse,Knowledge,Task-relevantData,Selection,DataMining,PatternEvaluation,数据挖掘引论,数据挖掘的定义数据挖掘步骤(JiaweiHan)数据清理(DataCleaning):

消除噪声或不一致数据;数据集成(DataIntegration):

多种数据源组合在一起;数据选择(DataSelection):

从数据库中检索与分析任务相关的数据;,数据挖掘引论,数据挖掘的定义数据挖掘步骤(JiaweiHan)数据变换(DataTransformation):

数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘(DataMining):

使用智能方法提取数据模式;模式评估(DataEvaluation):

根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示(Knowledgepresentation):

使用可视化和知识表示技术,向用户提供挖掘的知识;,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义数据挖掘步骤(CRISP-DM过程模型)各个阶段会以一种非线性的方式互相影响迭代特性(从一个数据挖掘循环获得的知识几乎无所例外地会导致新的问题、新的争论以及新的机会来识别和满足客户的需求。

这些新问题新争论和新机会通常可以通过再次挖掘您的数据得以解决。

北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义数据挖掘步骤(CRISP-DM过程模型)商业理解:

商业理解包括确定业务对象、评估情况、确定数据挖掘目标以及制订工程计划。

数据理解:

包括收集初始数据、描述数据、探索数据和验证数据质量。

数据准备:

包括选择、清理、构建、集成以及格式化数据。

北方工业大学信息工程学院,数据挖掘引论,数据挖掘的定义数据挖掘步骤(CRISP-DM过程模型)建模:

使用精巧复杂的分析方法从数据中提取信息。

包括选择建模技术、生成测试设计,以及构建和评估模型。

评估:

包括评估结果、查看数据挖掘过程,以及确定后续步骤。

部署:

将新知识结合到日常的业务流程中,来解决最初的业务问题。

此阶段包括计划部署、监视和维护、生成最终报告,以及复查该工程。

北方工业大学信息工程学院,数据挖掘引论,数据挖掘的功能概念描述对某类对象的内涵进行描述概括这类对象的有关特征允许在多个抽象层概化泛化概化粗粒度、细粒度多维特征性描述:

描述某类对象的共同特征区别性描述:

描述不同类对象之间的区别,1-9数字,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的功能关联分析若两个或多个变量间存在着某种规律性,称为关联分简单关联、时序关联、因果关联从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式,啤酒与尿布,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的功能分类与预测分类:

提出一个分类函数或者分类模型,该模型能把数据库中的数据项映射到给定的类别中的一个。

需要有一个训练样本数据集作为输入预测:

利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性或值的范围,决策树,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的功能分类与预测分类是预测分类标号(或离散值),如决策树、K-最临近分类法预测建立连续值函数模型(连续值或有序值),如线性回归和多元回归,非线性回归;,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的功能聚类分析根据数据的不同特征,将其划分成为不同的数据类使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大分类需要预先定义类别和训练样本聚类直接面向数据源,没有预先定义好的类别和训练样本,所有记录都根据彼此相似程度加以归类,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的功能偏差分析又称比较分析对差异和极端特例的描述揭示事物偏离常规的异常现象包括分类中的反常实例、不满足规则的特例、观测结果对模型预测的偏差、量值随时间的变化等,计算机与退学,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法聚类分析源于统计学、生物学以及机器学习等使同一个簇内的任意两个对象之间具有较高的相似性,不同簇的两个对象之间具有较高的相异性有以下几种分析方法基于划分的方法层次的密度的网格的模型的,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法决策树主要用于分类和预测分为分类树和回归树分类树:

对离散变量做决策回归树:

对连续变量做决策每一次切分都要求分成的组之间的“差异”最大常用算法CHAIDCARTQuestID3C4.5,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法决策树,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法决策树树的根节点整个数据集合空间内部节点每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出叶节点每个叶节点代表类或类分布,熵,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法人工神经网络模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型利用大量的简单计算单元(神经元)连成网络,实现大规模并行计算通过学习,来改变神经元之间的连接强度包括前馈式网络反馈式网络自组织网络,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法人工神经网络,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法人工神经网络,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法粗糙集一种处理不确定、不完备数据和不精确问题的新的数学理论仅利用数据本身提供的信息,无须任何先验知识将知识理解为对数据的划分,并引入上近似和下近似等概念来刻画知识的不确定性和模糊性,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法关联规则挖掘由美国学者Agrawal等人于1993年提出最初是针对购物篮分析问题提出从数学及计算机算法角度提出了商品关联关系的计算方法Aprior算法找到所有支持度大于最小支持度的频繁项集,由频繁项集产生期望的规则,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法关联规则挖掘基于频集理论的递推方法有关联发现、序列模式发现、时序发现等沃尔玛的“啤酒与尿布”案例是正式刊登在1998年的哈佛商业评论,北方工业大学信息工程学院,数据挖掘引论,数据挖掘的常用方法统计分析从事物的外在数量上的表现去推断该事物可能的规律从其数量表现上通过统计分析看出一些线索,然后提出一定的假说或学说,再做进一步深入的理论研究有回归分析(多元回归、自回归)、判别分析(贝叶斯判别、费歇尔判别、非参数判别)和探索性分析(主元分析、相关分析)等,北方工业大学信息工程学院,数据挖掘引论,电解铝生产智能系统,模糊专家系统,多维分析系统,数据挖掘系统,六西格玛系统,规则,统计猜想,多维猜想,新的观测视角,北方工业大学信息工程学院,数据仓库引论,数据仓库的产生与发展1988年,为解决全企业集成问题,IBM爱尔兰公司的BarryDevlin和PaulMurphy第一次提出了“信息仓库”的概念1992年,美国WilliamH.Inmon在建立数据仓库一书中系统阐述了关于数据仓库的思想和理论,被称为“数据仓库之父”,北方工业大学信息工程学院,数据仓库引论,数据仓库的产生与发展1995年,数据仓库开始盛行IBM提出了商业智能(BI)SQLServer7.0:

OLAP服务器Oracle:

OracleExpressOLAP目前,世界知名企业均拥有/建立了自己的数据仓库,北方工业大学信息工程学院,数据仓库引论,数据仓库的定义Inmon:

数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程,北方工业大学信息工程学院,数据仓库引论,数据仓库的定义,北方工业大学信息工程学院,数据仓库引论,数据仓库与数据挖掘的联系与区别数据仓库为数据挖掘提供了更好的、更广泛的数据源数据仓库为数据挖掘提供了新的支持平台数据仓库为更好地使用数据挖掘工具提供了方便,北方工业大学信息工程学院,数据仓库引论,数据仓库与数据挖掘的联系与区别数据挖掘为数据仓库提供了更好的决策支持数据挖掘对数据仓库的数据组织提出了更高的要求数据挖掘为数据仓库提供了广泛的技术支持数据仓库是存数据,数据挖掘是用数据,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘的应用领域金融业评估帐户信用等级满足什么样条件的帐户属于哪一类信用等级分析信用卡使用模式监测信用卡的恶性透支行为分析股票趋势难!

北方工业大学信息工程学院,数据挖掘的应用,数据挖掘的应用领域保险业确定保险金确定对不同行业、不同年龄段、不同社会层次人员保险金的额度险种关联分析向购买A险种的推销B险种其他预测有目的地推销新险种,精算师,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘的应用领域电子商务(Web挖掘)分析购物者、浏览者的购买、浏览行为提供个性化服务智能推荐,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘的应用领域市场营销收集、加工和处理涉及消费者消费行为的大量信息确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求进行特定内容的定向营销为企业带来更多的利润小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘的应用领域小知识客单价购物篮的表现形式根据AC尼尔森2006年对国内零售企业的调查发现,从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又多、大润发、乐购等台资卖场客单价为50元到了周末(周六、周日)的差距更大,国内卖场客单价为35元,台资卖场客单价为80元,外资卖场可以达到149元,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘的应用领域客户关系管理指企业通过富有意义的交流沟通,理解并影响客户行为,最终实现提高客户获得、客户保留、客户忠诚和客户创利的目的考察消费行为评估客户价值细分客户群针对不同的客户群发掘消费特点对市场活动的效果进行预测,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘的应用领域搜索引擎网页搜索关键词社交网、微博、QQ等好友电话号码,微博营销,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘的应用领域医疗病例研究病人行为特征分析生命秘密(DNA分析,蛋白质分析)司法案例分析犯罪监控犯罪行为特征分析工业故障诊断生产决策生产过程优化,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例竞技运动NBAIBM公司开发的数据挖掘应用软件AdvancedScout大约20个NBA球队使用来优化他们的战术组合本队A和B同时上场的得分率(配合)本队A与对手C同时上场的得分率(防守)队员在哪个位置得分占优?

(统计)对方教练的技战术安排规律(统计),北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例超市SafewaySafeway是英国第三大连锁超市以客户为导向,而非产品和商家了解每一位客户的需求了解所有客户的每一笔交易以及这些交易彼此之间的关联性根据客户的相关资料,将客户分为150类,再用关联技术来比较这些资料集合,列出产品相关度的清单,对商品的利润进行细分,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例超市SafewaySafeway发现某一种乳酪产品虽然销售额排名较后,但有25%的消费额最高的客户都常常购买这种乳酪,体现出这一产品的重要性。

在28种品牌的橘子汁中,有8种特别受消费者欢迎,并重新安排货架的摆放,使橘子汁得销量能够大幅增加,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例超市Safeway发现客户长期的经常性购买行为,营销部门可以根据每个家庭在哪个季节倾向于购买那些产品的特性发出邮件一年内发了1200万封有针对性的邮件,对超市销售量的增长起到了很重要的作用,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例网站AutoT美国AutoT是世界上最大的汽车网站什么样的客户访问网站?

客户喜欢什么样的网站访问路径来获得所需信息?

各个网站层次访问量如何?

同一位客户访问网站的频率如何?

客户经常重复进行何购买行为?

北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例网站AutoT用SAS的分析和数据挖掘软件,对用户的网络点击率进行分析目的:

决定是否需要根据客户的不同喜好开设特定的服务区,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例网站当当网等购买了本书的顾客同时还购买了。

北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例个性化服务BigSamsClothing使用聚类方法来发现那些商品自然的分在同一组中,如关于沙漠探险的书和医疗工具包进行客户分析来识别那些经常对添加在商品目录中的新商品感兴趣的客户通过E-mail向客户提供由数据挖掘模型预测的客户感兴趣的新产品信息在重复销售、每一客户的平均销售量和销售的平均范围等方面有了较大的提高,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例体育用品体育精品公司总部在悉尼购买山地车的顾客再购买头盔的可能性为92%,再购买手套的可能性为62%,再购买新款铃铛的可能性为23%,再购买速度计的可能性为13%引导购买系列产品购买气瓶的顾客一年内回来充气1次的有12%,2次的8%,2次以上的7%放弃充气业务或加大宣传,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例体育用品体育精品公司一个月后,季度的营业额上升34%,收入上涨32%,手套销售额上升15%,山地车附件的销售上升51%,捆绑销售得到普及。

北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例数据挖掘,无处不在端游/页游广告推广彩票分析预测,北方工业大学信息工程学院,数据挖掘的应用,数据挖掘案例小知识ARPU值每用户每月平均收入,AverageRevenuePerUser在Citron对奇虎360的质疑中,其中一个问题是奇虎游戏平台上的WebgameARPU高达380元人民币,这数字远远超出了以前畅游、完美时空等MMORPG游戏200多元的顶峰,游戏谷,北方工业大学信息工程学院,常用数据挖掘工具,数据挖掘工具IBM:

IntelligentMinerThinkingMachines:

DarwinNeoVistaSolution:

DecisionAngoss:

KnowledgeSeekerSQLServer2005OracleSPSS:

ClementineSAS:

EnterpriseMiner,北方工业大学信息工程学院,常用数据挖掘工具,数据挖掘工具SPSS社会科学统计软件包是一种集成化的计算机数据处理应用软件1968年,美国斯坦福大学3位学生开发为广大的非专业人士设计更适合应用于教育科学研究,北方工业大学信息工程学院,常用数据挖掘工具,数据挖掘工具SAS统计分析软件是一个模块化、集成化的大型应用软件系统1966年美国北卡罗来纳州立大学开发为专业统计分析人员设计,北方工业大学信息工程学院,常用数据挖掘工具,数据挖掘工具SQLServer2005DBDWOLAPDM可编程组件,北方工业大学信息工程学院,常用数据挖掘工具,数据挖掘工具WekaWaikatoEnvironmentforKnowledgeAnalysis怀卡托智能分析环境是一个开放源码的数据挖掘软件可使用Java语言,在Weka架构上开发出更多的数据挖掘算法,北方工业大学信息工程学院,常用数据挖掘工具,数据挖掘工具MATLABMatrixLaboratory矩阵实验室美国MathWorks公司开发的商业数学软件用于算法开发、数据可视化、数据分析以及数值计算的高级计算语言和交互环境可以在多种编程环境下直接调用可以将自己的实用程序导入到MATLAB函数库中,北方工业大学信息工程学院,常用数据挖掘工具,数据挖掘工具Clementine是SPSS企业级数据挖掘工作平台具有数据挖掘的全部分析方法它的CRISP-DM标准可以帮助规范数据挖掘流程Clementine的可视化界面让用户可以应用他们自己的业务专长,这将生成更强有力的预测模型,缩减实现解决方案所需的时间Clementine提供了多种建模技术,例如预测、分类、细分和关联检测算法,北方工业大学信息工程学院,常用数据挖掘工具,数据挖掘工具Clementine提供了将第三方程序(例如,数据处理例程或建模算法)作为节点集成到Clementine的功能Clementine表达式操作语言(CLEM)是一种用于分析和在Clementine流中操作流动的数据的功能强大的语言,北方工业大学信息工程学院,常用数据挖掘工具,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 幼儿教育 > 幼儿读物

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2