复旦商务智能概论--2数据仓库DataWarehouse.pptx

资源描述

复旦商务智能概论--2数据仓库DataWarehouse.pptx

《复旦商务智能概论--2数据仓库DataWarehouse.pptx》由会员分享，可在线阅读，更多相关《复旦商务智能概论--2数据仓库DataWarehouse.pptx（59页珍藏版）》请在冰点文库上搜索。

复旦商务智能概论--2数据仓库DataWarehouse.pptx

数据仓库DataWarehouse,赵卫东博士复旦大学软件学院,1,事务型处理,事务型处理：

即操作型处理，是指对数据库的联机操作处理OLTP。

事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。

它是事件驱动、面向应用的，通常是对一个或一组记录的增、删、改以及简单查询等（大量、简单、重复和例行性）。

在事务型处理环境中，数据库要求能支持日常事务中的大量事务，用户对数据的存取操作频率高而每次操作处理的时间短。

2,分析型处理,分析型处理：

用于管理人员的决策分析，例如DSS、EIS和多维分析等。

它帮助决策者分析数据以察看趋向、判断问题。

分析型处理经常要访问大量的历史数据，支持复杂的查询。

分析型处理过程中经常用到外部数据，这部分数据不是由事务型处理系统产生的，而是来自于其他外部数据源。

3,事务型处理数据和分析型处理数据的区别,4,数据库系统的局限性,数据库适于存储高度结构化的日常事务细节数据，而决策型数据多为历史性、汇总性或计算性数据，多表现为静态数据，不需直接更新，但可周期性刷新。

决策分析型数据是多维性，分析内容复杂。

在事务处理环境中，决策者可能并不关心具体的细节信息，在决策分析环境中，如果这些细节数据量太大一方面会严重影响分析效率，另一方面这些细节数据会分散决策者的注意力。

5,数据库系统的局限性（续）,当事务型处理环境和分析型处理环境在同一个数据库系统中，事务型处理对数据的存取操作频率高，操作处理的时间短，而分析型处理可能需要连续运行几个小时，从而消耗大量的系统资源。

决策型分析数据的数据量大，这些数据有来自企业内部的，也有来自企业外部的。

来自企业外部的数据又可能来自不同的数据库系统，在分析时如果直接对这些数据操作会造成分析的混乱。

对于外部数据中的一些非结构化数据，数据库系统常常是无能为力。

6,多库系统的限制,可用性：

源站点或通信网络故障将导致系统瘫痪,源站点不能通过网络在线联入多库系统。

响应速度：

全局查询多级转换和通信传输,延迟和低层效率影响响应速度。

系统性能：

总体性能取决于源站点中性能最低的系统,影响系统性能的发挥;系统开销：

每次查询要启动多个局部系统,通信和运行开销大。

7,实施数据仓库的条件,数据积累已达到一定规模面临激烈的市场竞争在IT方面的资金能得到保障,8,数据仓库的发展,自从NCR公司为WalMart建立了第一个数据仓库。

1996年，加拿大的IDC公司调查了62家实现了数据仓库的欧美企业，结果表明：

数据仓库为企业提供了巨大的收益。

早期的数据仓库大都采用当时流行的客户/服务器结构。

近年来分布式对象技术飞速发展，整个数据仓库体系结构从功能上划分为若干个分布式对象，这些分布式对象不仅可以直接用于建立数据仓库，还可以在应用程序中向用户提供调用的接口。

IBM的实验室在数据仓库方面已经进行了10多年的研究，并将研究成果发展成为商用产品。

其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。

9,数据仓库（DataWarehouse）,数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口，完成数据查询和分析。

支持整个企业范围的主要业务来建立的，主要特点是，包含大量面向整个企业的综合信息及导出信息。

数据仓库是作为DSS服务基础的分析型DB，用来存放大容量的只读数据，为制定决策提供所需要的信息。

数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的、面向主题及不可更新的数据集合。

以1992年WHInmon出版BuildingtheDataWarehouse为标志，数据仓库发展速度很快。

WHInmon被誉为数据仓库之父。

WHInmon对数据仓库所下的定义：

数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持管理决策的过程。

10,面向主题,数据仓库中的数据是按照各种主题来组织的。

主题在数据仓库中的物理实现是一系列的相关表，这不同于面向应用环境。

如保险公司按照应用组织可能是汽车保险、生命保险、伤亡保险，而数据仓库是按照客户、政策、保险金和索赔来组织数据。

面向主题的数据组织方式可在较高层次上对分析对象的数据给出完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企业的各项数据以及数据之间的联系，从而适应企业各个部门的业务活动特点和企业数据的动态特征，从根本上实现数据与应用的分离。

11,集成性,数据仓库中的数据是从原有分散的源数据库中提取出来的，其每一个主题所对应的源数据在原有的数据库中有许多冗余和不一致，且与不同的应用逻辑相关。

为了创建一个有效的主题域，必须将这些来自不同数据源的数据集成起来，使之遵循统一的编码规则。

12,稳定性,数据仓库内的数据有很长的时间跨度，通常是5-10年。

数据仓库中的数据反映的是一段时间内历史数据的内容，是不同时点的数据库快照的集合，以及基于撰写快照进行统计、综合和重组的导出数据。

主要供企业高层决策分析之用，所涉及的数据操作主要是查询，一般情况下并不进行修改操作.数据仓库中的数据是不可实时更新的，仅当超过规定的存储期限，才将其从数据仓库中删除，提取新的数据经集成后输入数据仓库。

13,时变性,时变性：

许多商业分析要求对发展趋势做出预测，对发展趋势的分析需要访问历史数据。

因此数据仓库必须不断捕捉OLTP数据库中变化的数据，生成数据库的快照，经集成后增加到数据仓库中去；另外数据仓库还需要随时间的变化删去过期的、对分析没有帮助的数据，并且还需要按规定的时间段增加综合数据。

14,支持管理决策,数据仓库支持OLAP（联机分析处理）、数据挖掘和决策分析。

OLAP从数据仓库中的综合数据出发，提供面向分析的多维模型，并使用多维分析的方法从多个角度、多个层次对多维数据进行分析，使决策者能够以更加自然的方式来分析数据。

数据挖掘则以数据仓库和多维数据库中的数据为基础，发现数据中的潜在模式和进行预测。

因此，数据仓库的功能是支持管理层进行科学决策，而不是事务处理。

15,BI系统VS决策盲点,某大型国有企业老总当他查看近十年企业的生产和运营数据时，手边得到了各种各样不同的数据报表。

这些数据报表大致可以分成两种类型：

一种是两年前、即ERP上线之前的，这是一些简单、杂乱而又枯燥的数字；另一种是有了ERP以后的，数据变得清楚而有条理起来，同时还有来自ERP、CRM、SCM以及计费业务等不同应用的数据和各种分析报告。

在仔细查看这些报表之后，这位国企老总惊讶地发现，不同的系统可以得出截然相反的两种结论。

例如某一产品，它的动态成本反映在ERP系统和CRM、SCM系统里面相差很大，如果引用ERP和CRM里面的数据，它就是一款很成功、销量很好的产品，但在SCM里面来看，它的采购和物流成本过高，导致了这款看起来很成功的产品实际上是一笔赔钱的买卖。

16,BI系统VS决策盲点（续）,其实从这些来自不同系统的数据基础产生不同的判断很正常，因为这些系统并不会去周密地“思考”在自己“职责”之外的事情。

这样就给企业的领导提交了相当多顾此失彼的分析报告，结果就是导致了许多市场决策上的混乱和失误。

把企业的内部数据和外部数据（企业内部数据就是指上述通过业务系统SCM、ERP、CRM等收集到的数据，这些数据可能在不同的硬件、数据库、网络环境中，为不同的业务部门服务。

外部数据是市场信息和外部竞争对手的信息）。

进行有效的集成，形成直观的、易于理解的信息，再进行分析和思考，为企业的各层决策及分析人员使用。

17,数据仓库的技术要求,复杂分析的高性能体现：

涉及大量数据的聚集、综合等，在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作。

对提取出来的数据进行集成：

数据仓库中的数据是从多个应用领域中提取出来的，在不同的应用领域和不同的数据库系统中都有不同的结构和形式，所以如何对数据进行集成也是构建数据仓库的一个重要方面。

对进行高层决策的最终用户的界面支持：

提供各种分析应用工具。

18,数据仓库系统的结构,19,数据仓库系统的结构

（2）,20,数据仓库系统的结构（3）,21,数据仓库流程,22,IBM信息分析框架,23,数据仓库系统的组成

（1）,源数据：

数据仓库中的数据来源于多个数据源，它不仅可以是企业内部的关系型数据库，还包括非传统数据，如文件、HTML文档等。

数据仓库管理系统：

元数据库及元数据管理部件：

元数据库用来存储由定义部件生成的关于源数据、目标数据、提取规则、转换规则以及源数据与数据仓库之间的映射信息等。

数据转换部件：

该部件把数据从源数据中提取出来，依定义部件的规则将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。

数据集成部件：

该部件根据定义部件的规则、统一各源数据的编码规则，并净化数据，根据元数据中定义的数据组织形式对数据进行汇总、聚合计算。

数据仓库管理部件：

它主要用于维护数据仓库中的数据，备份、恢复数据以及管理数据的安全权限问题。

24,数据仓库系统的组成

（2）,数据仓库前端工具集查询/报表工具：

以图形化方式和报表方式显示数据，帮助了解数据的结构、关系以及动态性。

OLAP工具：

通过对信息的多种可能的观察形式进行快速、一致和交互性的存取，便于用户对数据进行深入的分析和观察。

数据挖掘工具：

从大量数据中挖掘出具有规律性的知识，以及数据之间的内在联系。

前端开发工具：

提供用户编程接口，便于在现有系统的基础上进行二次开发，增强系统的伸缩性。

数据仓库:

在数据仓库系统中，数据仓库是一个数据存储集合，它的存储形式通常有多维数据库，关系型数据库及其他存储方式。

25,数据转换,统一数据编码：

数据仓库中的数据从各个数据源提取出来的，尽管经过转换后数据格式已经统一，但数据的编码、描述在各个源系统中都有很大的区别。

为了改进数据仓库中数据质量，提高数据仓库中数据的可用性，必须统一数据编码。

本系统中编码转换主要包括：

日期格式转换：

大多数业务环境中有许多不同的日期和时间类型，所以，几乎每个数据仓库的实现都必须将日期和时间变换成标准的数据格式。

数据仓库必须用单一的模式规定日期和时间信息。

测量单位的转换：

数据仓库中对于数值型字段应保持一致的单位。

在元数据库中创建表Units和UnitTypes来表示各种单位的换算关系。

表UnitTypes记录了数据仓库系统中的单位类型，初始元数据库中共分六种单位类型：

时间单位、货币单位、重量单位、长度单位、面积单位、体积单位。

在表Units中记录了单位名、单位类型以及同类型单位之间的相互转换关系。

26,转换器的设计与实现,转换器的功能：

数据结构转换和数据类型转换。

从数据源中提取数据并转换格式的过程：

先将各类数据库系统中不同格式的数据转换成文本文件，然后再利用批拷贝命令将数据导入目标系统中。

以使数据仓库获得新的数据提供决策分析使用。

数据准备区的使用：

首先从源数据中提取数据，转换成数据仓库所要求的格式后存储在数据仓库的一个称为数据准备区的缓冲区中。

在该区域中，可以暂时存储原始数据，然后由集成器对数据进行清理、集成后再装载到数据仓库中。

27,数据净化,当数据从源数据库中提取到数据准备区后，必须先进行数据净化才可以装载到数据仓库中去。

数据净化主要指对数据字段的有效值检验。

有效值的检验通常包括：

范围检验、枚举字段取值和相关检验。

范围检验要求数据保证落在预期的范围之内，通常对数据范围和日期范围进行检验，如对任何在指定范围之外的日期的发票都应删除。

枚举字段取值指对一个记录在该字段的取值，若不在指定的值中，则应该删除。

相关检验要求将一个字段中的值与另外一个字段中的值进行相关检验，即在数据库中某个字段应与另一个字段形成外键约束。

28,监控器捕捉数据变化的途径,数据仓库提供的是离线数据,与源数据存在时间差。

时标方法：

指在数据库中的数据设一个时标，如果新插入或更新一个数据记录，在记录中插入新的时标或加上更新时的时标，然后根据时标判断哪些数据是变化的，并把变化的数据追加到数据仓库中去。

DELTA文件：

该文件是由应用产生的，并记录了应用所改变的所有内容。

利用DELTA文件记录数据的变化，不需要扫描整个数据库，所以效率较高，但生成的DELTA文件的应用并不普遍。

映象文件：

在上次提取数据库数据到数据仓库之后及本次提取数据库数据之前，对数据库分别作一次快照，然后通过比较两幅快照的不同来确定要追加的数据。

这种方法需要占用大量的系统资源，对系统的性能影响比较大。

日志文件：

由于日志文件是数据库的固有机制，所以它对系统性能的影响比较小，另外它还有DELTA文件的优点，提取数据只局限于日志文件而不用扫描整个数据库。

所以日志文件是最可行的一种方法。

29,信息集成服务,CopyrightIBMCorporation,30,IBM的解决方案,31,元数据,数据仓库的所有数据都要通过元数据来管理和控制。

元数据描述关于源数据的说明，包括源数据的来源、源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。

源数据的来源说明源数据是从哪个系统、哪个历史数据、哪个办公数据、哪个Web页、哪个外部系统抽取而来。

源数据说明源数据在数据仓库的作用、用途、数据类型和长度等。

32,元数据

（2）,元数据：

是用来描述数据的数据。

它描述和定位数据组件、它们的起源及它们在数据仓库进程中的活动；关于数据和操作的相关描述（输入、计算和输出）。

元数据可用文件存在元数据库中。

元数据反映数据仓库中的数据项是从哪个特定的数据源填充的，经过哪些转换、集成过程。

要有效的管理数据仓库，必须设计一个描述能力强、内容完善的元数据。

33,元数据管理器,客户端登录：

负责接收客户端登录信息并进行用户权限检查。

元数据管理器的用户接口：

以接口形式向用户提供对元数据增、删、改、查的服务，包括：

源数据信息、数据仓库信息、星型模型信息、维信息、维表字段信息、事实表字段信息、映射事实表字段信息、映射维表字段信息、链接事实表与维表字段的信息。

元数据的存储：

元数据管理器中的元数据存储程序负责接收由接口程序传递来的关于对元数据进行增加、修改和删除等信息，并根据所提供的参数执行存储过程，将元数据的有关信息保存于服务器端的元数据库中。

34,元数据管理器的设计与实现,元数据的作用:

定义数据仓库的作用,指明数据仓库中信息的内容和位置,刻画数据的抽取和转换规则,存储与数据仓库主题有关的各种商业信息。

在客户端提供图形化界面工具。

例如，用户想在多维模型中加入一维或者在某一维中加入维元素，不仅可以通过图形化界面工具完成而且可以在用户自已编写的应用程序中调用应用程序接口函数，修改后的结果将记入元数据库中。

然后系统将根据元数据库中的新内容进行数据的追加。

35,操作数据存储,36,数据仓库中的数据组织,多级数据,37,数据仓库的数据模型,38,数据仓库建模和设计,Processofbuildinganabstractmodelforthedata,whichisstoredinthedataandrepresentsthedatawarehousecontent.,39,概念模型,由于大多数商务数据是多维的，但传统的数据模型表示三维以上的数据有一定困难。

概念模型简化了这个过程并且允许用户与开发者和其他用户建立联系：

确定系统边界：

决策类型、需要的信息、原始信息确定主题域及其内容：

主题域的公共键码、联系、属性组确定维度：

如时间维、销售位置维、产品维、组别维等确定类别：

相应维的详细类别确定指标和事实：

用于进行分析的数值化信息,40,实例,例试画出销售分析的概念模型。

解：

首先根据销售分析的实际需求，确定信息包的维度、类别和指标与事实：

（1）维度：

包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。

（2）类别：

确定各维的详细类别，如：

日期维包括年（10）、季度（40）、月（120）等类别，括号中的数字分别指出各类别的数量；销售地点维包括国家（15）、区域（45）、城市（280）、区（880）、商店（2000）等类别，括号中的数字同样分别指出各类别的数量；类似地，可以确定销售产品、年龄组别维、性别维等的详细类别。

（3）度量和事实：

确定用于进行分析的数值化信息，包括预测销售量、实际销售量和预测偏差等。

41,销售分析的概念模型,信息包：

销售分析维度,类别,42,概念模型图实例,43,逻辑模型,星型图：

数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。

与传统的关系模型相比，星型图模型简化了用户分析所需的关系，从支持决策的角度去定义数据实体，更适合大量复杂查询。

星形图包括了三种逻辑实体：

指标、维度和详细类别维表的本质是多维分析空间在某个角度上的投影，多个维表共同建立一个多维分析空间。

44,sales数据仓库的雪花模式,45,InformationModellingofSalesInformationDemand,UniqueIdentifier,Attribute,StrongEntityType,1-nRelationship,0-nRelationship,DerivedAttribute,WeakEntityType,46,DWLayerandtheMappingtoInformationModel,DataWarehouseLayer（logicallayer）,InformationModel（conceptuallayer）,MapInformationObjectsToDatabasefields,-RenameObjectstoUserfriendlynames-Calculatefields-Defineobjectdisplayattributes-Convertcurrenciesetc.,47,星型模型例子,48,物理数据模型,物理数据模型：

数据模型的第三层，它是星型图模型在数据仓库中的实现，如物理的存取方式、数据存储结构等。

在物理设计时，常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类，并将不同类的数据分别存储在不同的存储设备中。

重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上，如硬盘；存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。

49,粒度,粒度：

对数据仓库中的数据综合程度高低的一个度量，它既影响数据仓库中的数据量的多少，也影响数据仓库所能回答询问的种类。

粒度越小，综合程度越低，回答查询的种类越多；粒度越高，综合程度越高，查询的效率也越高。

在数据仓库中可将小粒度的数据存储在低速存储器上；大粒度的数据存储在高速存储器上。

50,维度,维度：

是一个物理特性（如时间、地点、产品等），它是表达数据仓库中信息的一个基本途径，可作为标识数据的索引。

通常的报表只包含有行和列两维，但在数据仓库中所存储的数据大多是用多维（三维或三维以上）视图表示的。

例如：

一个销售系统中的数据可分为时间维、产品维和地理位置维等；一个财务系统中的数据可分为时间维、支出维和收入维等；一个企业决策支持系统中的数据可分为成本开支维、销售收入维、利润维、股票价值维等。

51,聚合,在数据仓库技术中，每一维可包括多个层次，这些层次反过来可以向用户提供某一层次的数据。

例如，在地理位置维中，由所有的街区组成了地区，由所有的地区组成了城市等。

聚合就是指在维的不同层次内移动数据，从而构成维内不同层次的数据集，使用户不仅能够在一个维度内观察数据，而且能够在维度内的不同层次上观察数据。

聚合和汇总不同,52,分解与合成,分解与合成是在一个维度内进一步细分数据或将数据按照另一标准组合的过程。

例如，当以地理位置维观察数据时，用户可以首先以国家（如中国）为单位观察数据，然后可以选择观察某一个地区（如华东地区）的数据，接下来可以选择观察某一个省或城市（如上海）的数据，这就是数据分解的过程。

而合成则是分解的逆过程，例如用户开始以省市为观察对象，接着再以地区、国家等为观察对象，就是一个数据合成的过程。

53,数据仓库的数据组织,为了提高分析和决策的效率和有效性，分析型处理及其数据必须与事务型处理及其数据相分离，把分析型处理所需要的数据从事务型处理环境中提取出来，按照分析型处理的要求进行重新组织，建立单独的分析处理环境。

数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。

数据仓库的数据组织结构不同于一般的数据库系统，需要将从原有的业务数据库中获得的基本数据和综合数据分成一些不同的级别。

在数据仓库中，数据按照粒度从小到大可分为四个级别：

早期细节级、当前细节级、轻度细节级和高度细节级。

从事务型处理环境中提取的源数据经过综合后，首先进入当前细节级，并根据需要进行进一步的综合进入轻度综合级或高度综合级，老化的数据将进入早期细节级。

54,数据仓库的数据组织方式,虚拟存储方式：

数据仓库数据的虚拟存储方式是指在数据仓库中实际上并没有具体的数据存储，数据仓库中的数据仍然存储在源数据库中，只是根据用户的多维分析需求而形成多维视图，临时在源数据库中找出并提取所需要的数据，完成多维分析。

这种组织方式比较简单、花费少、使用灵活，但同时它也存在一个致命的弱点：

即只有当源数据库的组织比较规范、数据完备并没有冗余，同时又比较接近多维数据模型时，虚拟数据仓库的多维语义层才容易定义。

55,数据集市,数据仓库是企业级的，能为整个企业各部门的运行提供决策支持手段。

而数据集市（DataMart）是部门级别的，一般只能为某个局部范围内的管理人员服务，也称为部门级的数据仓库。

数据集市有两种：

独立的数据集市和从属的数据集市。

56,数据集市

（2）,数据集市不是数据仓库数据集市并非小的数据仓库多个数据集市集合并不构成数据仓库,57,元数据模型,关于源数据的元数据：

它是现有的操作型业务系统的数据源的描述信息，是对不同平台上的数据源的物理结构和含义的描述。

包括：

数据源中所有物理数据结构；所有数据项的业务定义；每个数据项更新的频率，以及由谁或哪个过程更新的说明；每个数据项的有效值；其它系统中具有相同业务含义的数据项的清单。

关于数据仓库多维模型的元数据标准维：

由一张维表构成，标准的星型模型采用这种维和事实表构成的。

维表中的一个字段或多个字段构成了维的层次。

雪花维：

由相互关联的多个维表构成，每个维表中的字段构成了维的层次。

通过多个维表的连接最大限度地减少了数据存储量，增加了模型的灵活性，但也使得查询变得复杂化。

时间维：

用来描述事实数据的时间属性。

它通常只与源数据库中某个表的日期型字段相对应，所以时间维的层次不可以由维表的字段来表示。

时间维的层次由高到低分别为Year、Quarter、Month、Day、Hour、Minute、Second，用户可以任意选择几种构成时间维的层次。

58,推荐资料（IBM红皮书）,GettingStartedwithDataWarehouseManagingMultidimensionalDataMartsBITutorialIntroductiontotheDataWarehouseCenter,59,

展开阅读全文