ImageVerifierCode 换一换
格式:PPTX , 页数:55 ,大小:255.17KB ,
资源ID:15122998      下载积分:30 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-15122998.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(数据仓库与数据挖掘第2章.pptx)为本站会员(A****)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

数据仓库与数据挖掘第2章.pptx

1、一、多维数据模型二、数据仓库的系统结构三、数据仓库的实现四、基于数据仓库的数据挖掘,第二章 数据仓库的OLAP技术,第一节 多维数据模型,1.数据立方体数据仓库和OLAP工具基于多维数据模型,多维数据模型将数据看作数据立方体(data cube)形式。数据立方体允许以多维对数据建模和观察,由维和事实定义,第一节 多维数据模型,1.数据立方体维是关于一个组织想要记录的透视或实体每一个维都有一个表与之相关联,该表称为维表,它进一步描述维多维数据模型围绕中心主题组织,主题用事实表表示事实是数值的度量,事实表包括事实的名称或度量,以及每个相关维表的关键字,第一节 多维数据模型,1.数据立方体设某BSE

2、K北星易家连锁公司由下列关系表描述:Customer(cust_id,name,address,age,)Item(item_id,name,type,price,)Employee(empl_id,name,salary,)purchases(trans_id,cust_id,empl_id,date,time,method_paid,amount,)Branch(branch_id,name,address),第一节 多维数据模型,1.数据立方体例如,BSEK可能创建一个数据仓库sales,记录商店的销售情况,涉及time,item和location。典型3-D立方体如图:,第一节 多维数

3、据模型,2.多维数据库模式E-R数据模型适用于OLTP,而数据仓库需要简明的、面向主题的模式,便于联机数据分析。数据仓库的数据模型采用多维数据模型 星型模式 雪花模式 事实星座模式,第一节 多维数据模型,2.多维数据库模式星型模式:是最常见的模型范式。这种模式的数据仓库包含:一个大的事实表和一组小的维表 事实表 包含大批数据和不含冗余的中心表 维表 附属表,每维一个表,第一节 多维数据模型,2.多维数据库模式星型模式,第一节 多维数据模型,2.多维数据库模式雪花模式:是星型模式的变种,其中某些维表是规范化的,因而数据被进一步分解到附加的表中 雪花模式的规范化维表,可以减少冗余,便于维护,并且节

4、省存储空间;同巨大的事实表相比,空间节省有限 执行查询需要更多连接操作,雪花模型可能降低浏览的性能,第一节 多维数据模型,2.多维数据库模式雪花模式,第一节 多维数据模型,2.多维数据库模式事实星座模式复杂的应用可能需要多个事实表共享维表,这种模式可以视为星型模式集,因此称为星系模式,或事实星座模式,第一节 多维数据模型,2.多维数据库模式事实星座模式,第一节 多维数据模型,3.度量的分类与计算数据立方体度量是一个数值函数,该函数可以对数据立方体的每一个点求值。通过对给定点的各维-值对聚集数据,计算该点的度量值度量根据所用的聚集函数分成三类:分布的度量、代数的度量、整体的度量,第一节 多维数据

5、模型,3.度量的分类与计算分布的:一个聚集函数是分布的,如果它能以如下分布方式进行计算设数据被划分为n个集合,函数在每一部分上的计算得到一个聚集值。如果将函数用于n个聚集值得到的结果,与将函数用于所有数据得到的结果一样,则该函数可以用分布方式计算。一个度量是分布的,如果它可以用分布聚集函数得到,第一节 多维数据模型,3.度量的分类与计算代数的:一个聚集函数是代数的,如果它能由一个具有M个参数的代数计算(M是一个有界整数),而每个参数都可以用一个分布聚集函数求得一个度量是代数的,如果它可以用代数聚集函数得到,第一节 多维数据模型,3.度量的分类与计算整体的:一个聚集函数是整体的,如果描述它的子聚

6、集所需的存储没有一个常数界,即不存在一个具有M个参数的代数函数进行这一计算(M是常数),而每个参数都可以用一个分布聚集函数求得一个度量是整体的,如果它可以用整体聚集函数得到,第一节 多维数据模型,3.度量的分类与计算多数数据立方体的应用需要有效地计算分布的和代数的度量,存在许多有效的技术;而有效计算整体的度量是很困难的,往往采取计算以满意的结果估计大数据集的中值,不进行精确计算。例如,median()和mode(),第一节 多维数据模型,4.多维数据模型上的OLAP操作 上卷(roll-up)下钻(drill-down)切片(slice)、切块(dice)转轴(pivot)钻过(drill-a

7、cross)钻透(drill-through),第一节 多维数据模型,4.多维数据模型上的OLAP操作概念分层将属性或维组织成渐进的抽象层,它将低层概念映射到更一般的高层概念。概念分层对于多抽象层上的挖掘有用,第一节 多维数据模型,4.多维数据模型上的OLAP操作上卷:通过一个维的概念分层向上攀升或通过维归约,在数据立方体上进行聚集,第一节 多维数据模型,4.多维数据模型上的OLAP操作 上卷,分层定义为全序:“street city province_or_state county”,第一节 多维数据模型,4.多维数据模型上的OLAP操作下钻:通过沿维的概念分层向下或引入新的维来实现,它是上

8、卷的逆操作,由不太详细的数据到更详细的数据,第一节 多维数据模型,4.多维数据模型上的OLAP操作 下钻,分层定义全序为:“day month quarter year”,第一节 多维数据模型,4.多维数据模型上的OLAP操作,切片:切片操作在给定的数据立方体的一个维上进行选择,导致一个子方,第一节 多维数据模型,4.多维数据模型上的OLAP操作 切片,Time=“Q1”,第一节 多维数据模型,4.多维数据模型上的OLAP操作,切块:切块操作通过对两个或多个维执行选择,定义子方,第一节 多维数据模型,4.多维数据模型上的OLAP操作 切块,(location=“Toronto”or“Vanco

9、uver”)and(Time=“Q1”or“Q2”)and(item=“home entertainment”or“computer”),第一节 多维数据模型,4.多维数据模型上的OLAP操作:转轴:是一种目视操作,它转动数据的视角,提供数据的替代表示,第一节 多维数据模型,4.多维数据模型上的OLAP操作 转轴,第一节 多维数据模型,4.多维数据模型上的OLAP操作钻过:执行涉及多个事实表的查询钻透:操作使用关系SQL机制,钻到数据立方体的底层,到后端关系表OLAP的许多特征体现在统计数据库(SDB)的早期工作中,而SDB 关注社会经济应用,OLAP旨在商务应用以及有效处理海量数据,第二节

10、数据仓库的系统结构,1.数据仓库的设计步骤数据仓库设计需要考虑的四种视图:自顶向下视图:可以帮助选择数据仓库所需的相关息,这些信息能够满足当前和未来商务的需求数据源视图:揭示被操作数据库系统捕获、存储和管理的信息数据仓库视图:包括事实表和维表商务查询视图:从最终用户的角度透视数据仓库中的数据,第二节 数据仓库的系统结构,1.数据仓库的设计步骤数据仓库的设计包括如下步骤:选取待建模的商务处理。如果商务过程针对整个组织,并涉及多个复杂对象,选用数据仓库模型;如果是某一部门的、或某一类商务处理,应选择数据集市。选取商务处理的粒度选取用于每个事实表记录的维选取安放在事实表中的度量,第二节 数据仓库的系

11、统结构,2.数据仓库的结构数据仓库通常采用三层结构:底层:数据仓库服务器 中间层:OLAP服务器 顶层:前端工具,第二节 数据仓库的系统结构,清理 转换 集成,输出,业务数据库,外部信息源,数据仓库,数据集市,OLAP服务器,底层:数据仓库服务器,顶层:前端工具,中间层:OLAP服务器,元数据存贮,第二节 数据仓库的系统结构,2.数据仓库的结构从结构的角度,有三种数据仓库模型:企业仓库 数据集市 虚拟仓库,第二节 数据仓库的系统结构,2.数据仓库的结构 企业仓库企业仓库(Enterprise warehouse)收集跨越整个企业的各个主题的所有信息。它提供全企业的数据集成,数据通常来自多个操作

12、型数据库和外部信息提供者,并且是跨越多个功能范围的。它通常包含详细数据和汇总数据企业数据仓库可以在传统的大型机上实现,例如UNIX超级服务器或并行结构平台。它需要广泛的业务建模,可能需要多年的时间来设计和建造,第二节 数据仓库的系统结构,2.数据仓库的结构 数据集市数据集市(data mart)包含对特定用户有用的,企业范围数据的一个子集。它的范围限于选定的主题,例如一个商场的数据集市可能限定它的主题为顾客、商品和销售。数据集市中的数据通常为汇总数据,第二节 数据仓库的系统结构,2.数据仓库的结构 数据集市实现数据集市的周期一般是数周,而不是数月或数年,然而,如果它的规划不是企业范围的,从长远

13、讲,可能会涉及很复杂的集成根据数据的来源不同,数据集市分为独立的依赖的二类。在独立的数据集市中,数据来自一个或多个操作型数据库或外部信息提供者,或者是一个特定的部门或地区本地产生的数据。在依赖的数据集市中,数据直接来自企业数据仓库,第二节 数据仓库的系统结构,2.数据仓库的结构 虚拟仓库虚拟仓库(virtual warehouse)是操作型数据库上视图的集合。为了有效地处理查询,只做了一些可能的汇总视图。虚拟仓库易于创建,但需要操作型数据库服务器具有剩余能力,第二节 数据仓库的系统结构,3.OLAP服务器的类型 关系OLAP(ROLAP)服务器 多维OLAP(MOLAP)服务器 混合OLAP(

14、HOLAP)服务器 特殊的SQL服务器,第二节 数据仓库的系统结构,4.关系OLAP(Relational OLAP)ROLAP将分析用的多维数据 存储在关系数据库中,并根据应用需求有选择的定义一批视图作为表存储在关系数据库中。不必要将每一个SQL查询都作为实视图保存,只定义那些应用频率比较高、计算工作量比较大的查询作为实视图,4.关系OLAP(Relational OLAP)对每个针对OLAP服务器的查询,优先利用已经计算好的实视图来生成查询结果以提高查询效率。同时用作ROLAP存储器的RDBMS也针对OLAP作相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、

15、SQL的OLAP扩展(cube、rollup)等等,第二节 数据仓库的系统结构,第二节 数据仓库的系统结构,5.多维OLAP(Multidimensional OLAP)MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围,而总结数据作为多维数组的值存储在数组的单元中,第二节 数据仓库的系统结构,5.多维OLAP(Multidimensional OLAP)由于MOLAP采用新的存储结构,从物理层实现起,因此又称为物理OLAP(Physical OLAP)而ROLAP主要通过一些软件工具或中间软件实现,物理层仍

16、采用关系数据库的存储结构,因此称为虚拟OLAP(Virtual OLAP),第二节 数据仓库的系统结构,6.ROLAP与MOLAP比对,第二节 数据仓库的系统结构,6.ROLAP与MOLAP比对,左边为ROLAP方式,右边为MOLAP方式,对应的是同一个三维模型,第二节 数据仓库的系统结构,6.混合OLAP(Hybird OLAP)混合型OLAP(HOLAP)把MOLAP和ROLAP两种结构的优点结合起来迄今为止,对HOLAP还没有一个正式的定义。但很明显,HOLAP结构不应该是MOLAP与ROLAP结构的简单组合,而是这两种结构技术优点的有机结合,能满足用户各种复杂的分析请求,第三节 数据仓

17、库的实现,1.数据立方体的有效计算多维数据分析的核心是有效地计算多个维集合上的聚集,类似于SQL中的分组 基本立方操作及实现 部分物化 数据立方体计算中多路数组聚集,第三节 数据仓库的实现,2.索引OLAP数据 位图索引 连接索引 复合连接索引,第四节 基于数据仓库的数据挖掘,1.数据仓库的使用数据仓库的三种应用:信息处理 分析处理 数据挖掘,第四节 基于数据仓库的数据挖掘,1.数据仓库的使用信息处理:支持查询和基本的统计分析,并使用交叉表、表、图表或图进行报告。数据仓库信息处理的当前趋势是构造低成本的基于Web的存取工具,然后与Web浏览器集成在一起,第四节 基于数据仓库的数据挖掘,1.数据

18、仓库的使用分析处理:支持基本的OLAP操作,包括切片与切块、下钻、上卷和转轴。一般在汇总的和细节的历史数据上操作,它支持数据仓库的多维数据分析,第四节 基于数据仓库的数据挖掘,1.数据仓库的使用数据挖掘:支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果数据挖掘不限于分析数据仓库中的数据,比OLAP更自动化,更深入,应用更广,第四节 基于数据仓库的数据挖掘,2.从OLAP到OLAMOLAM联机分析挖掘将联机分析处理与数据挖掘以及多维数据库中的发现知识集成在一起。数据仓库中的数据高质量 环绕数据仓库的有价值的信息处理基础设施 基于OLAP的探测式数据分析 数据挖掘功能的联机选择,思考问题:,1.什么是数据立方体和多维数据模型?2.最流行的数据仓库模型有哪些?3.什么是数据立方体度量,其分类如何?4.多维数据模型上的OLAP操作主要有哪些?5.数据仓库的设计过程主要有哪些步骤?6.简述OLAP与数据挖掘的关系。,

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2