数据仓库概念(ppt)..pptx

资源描述

数据仓库概念(ppt)..pptx

《数据仓库概念(ppt)..pptx》由会员分享，可在线阅读，更多相关《数据仓库概念(ppt)..pptx（69页珍藏版）》请在冰点文库上搜索。

数据仓库概念(ppt)..pptx

,第一章数据仓库基本概念,第一章目录,1.1从数据库到数据仓库1.2什么是数据仓库1.3数据仓库与传统数据库的比较1.4数据仓库的系统结构1.5数据仓库的数据组织1.6本章小结,2,1.1从数据库到数据仓库,传统数据库以及OLTP（On-LineTransactionProcessing联机事务处理）在日常的管理事务处理中获得了巨大的成功，但是对管理人员的决策分析要求却无法满足。

因为，管理人员常常希望能够通过对组织中的大量数据进行分析，了解业务的发展趋势。

而传统数据库只保留了当前的业务处理信息，缺乏决策分析所需要的大量的历史信息。

为满足管理人员的决策分析需要，就需要在数据库的基础上产生适应决策分析的数据环境数据仓库（DataWarehose）。

3,1.1.1蜘蛛网问题

（1）,在市场经济的激烈竞争中，信息对于企业的生存和发展起着至关重要的作用。

企业对信息的需求是多方面的，为了避免企业中各部门或各用户间的冲突和简化用户的数据视图，一种称作“抽取程序”的方法被广泛地应用。

比如，市场部人员通常只关心企业的销售、市场策划方面的信息，而不注重企业的研发、生产等其他环节。

因此，将销售、市场策划方面的信息抽取出来单独建立部门级的数据库很有必要，这样可以提高数据的访问效率。

4,在部门级数据的基础上可能还要被继续执行抽取程序，以建立个人级的数据库。

比如，专门负责制作公司财务报表的数据人员，常常需要从财务部门的数据库系统中抽取数据。

又如，部门经理可能经常抽取常用的数据到本地，有针对性的建立个人级数据库就显得尤为重要。

随着数据的逐层抽取，很可能最终导致系统内的数据间形成了错综复杂的网状结构，如图1.1所示，人们形象地称为“蜘蛛网”。

一个大型的公司每天进行上万次的数据抽取很普遍。

这种演变不是人为制造的，而是自然演变的结果。

企业的规模越大,“蜘蛛网”问题就越严重。

5,1.1.1蜘蛛网问题

（2）,网上的任意两个节点的数据可能归根结底是从一个原始库中抽取出来的，但其数据没有统一的时间基准，因而错综复杂的抽取与访问将产生很多问题，主要有以下几个方面。

1.1.1蜘蛛网问题（3）,6,1.数据分析的结果缺乏可靠性图1.2中展示了某企业的市场部和计划部对项目I是否具有市场前景的分析过程和结果。

市场部认为“项目I的市场前景很好”,而计划部却得到截然相反的结果-“项目I没有市场前景”。

作为企业的最终决策者，将如何根据这样的结论进行决策呢？

为什么分析同一个企业数据库中的数据，却得到截然相反的结论呢？

首先，两部门可能抽取数据的内容不同。

比如，市场部抽取的是项目I在大客户中的应用情况，而计划部抽取的是项目I在普通客户中的应用情况。

7,1.1.1蜘蛛网问题（4）,其次，可能两部门抽取数据的时间不同。

如市场部在星期日晚上提取分析所需的数据，而计划部在星期三下午就抽取了数据。

有任何理由相信对某一天抽取的数据样本进行分析与对另一天抽取的数据样本进行的分析可能相同吗？

当然不能！

企业内的数据总是在变的。

再次，引用外部信息的不同。

分析项目的发展趋势常常需要引入企业外部的信息，比如报刊信息、国家的政策等。

市场部门引用的外部信息来源可能与计划部门不同，而外部信息自然是仁者见仁，智者见智，这也可能是导致最终分析结果不同的原因。

最后，分析程序的差异。

市场部门使用的分析程序可能与计划部门不同，分析的内容和指标也可能不同。

8,1.1.1蜘蛛网问题（5）,1.1.1蜘蛛网问题（6）,9,2.数据处理的效率很低数据分析的结果缺乏可靠性并不是蜘蛛网问题中唯一的主要问题。

在一个大型企业中，不同级别的数据库可能使用不同类型的数据库系统，对于拥有巨型数据量的企业级数据库可能使用IBMDB2，而对于部门级和个人级的中小型数据库可能使用SQL各Se种rve数r。

据库的开发工具和开发环境不同，当需要在整个企业范围内查询数据时，数据处理的低效率将是不容忽视的。

如果一个大型企业的决策领导需要一份关于公司整体运营情况的报表，通常需要动用大量的人力和物力才能达到。

首先，定位报表需要的数据，即确定报表涉及的内容分布在哪个数据库的哪个位置，然后调动各个部门的程序员/分析员对应用进行分析、设计和编码。

10,1.1.1蜘蛛网问题（7）,由于数据分散在各个数据库中，因此需要编写的程序很多。

由于企业中使用的数据库类型很多，因此可能需要使用多种技术来实现。

可见，面对企业中存在的蜘蛛网现象，为产生一份关于公司整体运营情况的报表，将动用大量的人力、物力和时间才能完成。

如果低效率的过程是一次性的，那么为生成报表花费大量的资源也是可取的。

换句话说，如果生成第一份企业报表需要大量资源，生成所有后继报表可以建立在第一份企业报表基础之上，那么不妨为生成第一份报表付出一些代价。

但是事实并非如此。

除非事先知道未来的企业报表需求，并且除非这些需求影响到第一张报表的建造，每个新的企业报表总是要花费同前面差不多的代价。

因此，数据处理的低效率是蜘蛛网问题所面临的又一个问,题。

11,1.1.1蜘蛛网问题（8）,3.难以将数据转化成信息除了数据处理效率和数据可信度的问题之外，“蜘蛛网”式的结构还难以将数据转化成信息。

比如，某电信公司要想分析某个大客户今年的情况和过去3年有什么不同？

大客户的情况可能包括呼叫行为、话费情况、交费情况、咨询问题等。

因此要想比较完整地回答这个问题，实际上需要将客户多方面的数据综合成信息。

但“蜘蛛网”式的结构中数据缺乏集成性，因此，对综合信息需求的支持确实是不充分的。

另外，每个数据库由于其数据量和业务处理的需求不同，对历史数据的存储时间也不同，因此在蜘蛛网环境中的系统难以提供完整的历史数据。

如，记录客户呼叫行为的数据库通常只保留最近3个月的呼叫话单，财务数据库可能保留客户今年的交费情况，客户咨询数据库可能只保留客户2年内的咨询信息，于是，从这些数据中提取出完整的信息是不可能的。

12,1.1.1蜘蛛网问题（9）,数据库系统作为数据管理手段，主要用于事务处理。

在这些数据库中已经保存了大量的日常业务数据。

传统的DSS（DecisionSupportSystem，决策支持系统）一般是直接建立在这种事务处理环境上的。

数据库技术一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。

尽管数据库在事务处理方面的应用获得了巨大的成功，但它对分析处理的支持一直不能令人满意，这也正是产生“蜘蛛网”问题的原因之所在。

因此，要解决“蜘蛛网”问题，必须将用于事务处理的数据环境和用于分析处理的数据环境分离开。

这样，数据处理被分为事务型处理和分析型处理两大类。

事务型处理以传统的数据库为中心进行企业的日常业务处理。

比如电信部门的计费数据库用于记录客户的通信消费情况，银行的数据库用于记录客户的帐号、密码、存入和支出等一系列业务行为。

13,1.1.2事务处理和分析处理数据环境的分离

（1）,分析型处理以数据仓库为中心分析数据背后的关联和规律，为企业的决策提供可靠有效的依据。

比如，通过对超市近期数据进行分析可以发现近期畅销的产品，从而为公司的采购部门提供指导信息。

事务处理的使用人员通常是企业的具体操作人员，处理的数据通常是企业业务的细节信息，其目标是实现企业的业务运营；而分析处理的使用人员通常是企业的中高层的管理者，或者是从事数据分析的工程师。

决策分析数据环境包含的信息往往是企业的宏观信息而非具体的细节，其目的是为企业的决策者提供信息支持，并最终指导企业的商务活动。

事务处理和信息分析数据环境的划分如图1.3所示。

事务处理和信息分析数据环境的分离，划清了数据处理的分析型环境与事务型环境之间的界限，从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的事务处理系统和以数据仓库为基础的分析处理系统。

企业的生产环境，也由以数据库为中心的环境发展为以数据库和数据仓库为中心的环境。

14,1.1.2事务处理和分析处理数据环境的分离

（2）,1.1.2事务处理和分析处理数据环境的分离（3）,15,综上所述，在事务处理环境中直接构建分析处理应用是不合适的，要提高分析和决策的效率和有效性，分析型处理及其数据必须与操作型处理及其数据相分离。

必须把分析型数据从事务处理环境中提取出来，按照DSS处理的需要进行重新组织，建立单独的分析处理环境，数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。

目前，数据仓库技术正成为企业信息集成和辅助决策应用的关键技术之一。

当然，数据仓库的主要驱动力并不是过去的缺点和问题，而是市场商业经营行为的改变，市场竞争要求捕获和分析事务级的业务数据。

16,1.1.2事务处理和分析处理数据环境的分离（4）,第一章目录,1.1从数据库到数据仓库1.2什么是数据仓库1.3数据仓库与传统数据库的比较1.4数据仓库的系统结构1.5数据仓库的数据组织1.6本章小结,17,1.2什么是数据仓库,20世纪80年代中期，“数据仓库”这个名词首次出现在号称“数据仓库之父”W.H.Inmon的BuildingDataWarehouse一书中，在该书中，W.H.Inmon把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合，以用于支持管理决策过程。

”（“Adatawarehouseisasubject-oriented,integrated,non-volatile,time-variantcollectionofdatainsupportofmanagementdecisions.”）对于什么是数据仓库，还有许多不同的定义，如：

“数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。

“数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。

“数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。

“为查询和分析（不是事务处理）而设计的关系数据库”在众多的数据仓库定义中，公认的仍然是W.H.Inmon的定该义定，义指出了数据仓库面向主题、集成、稳定、随时间变化这4个最重要的特征。

18,与传统数据库面向应用进行数据组织的特点相对应，数据仓库中的数据是面向主题进行组织的。

什么是主题呢？

首先，从信息管理的角度看，主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。

从数据组织的角度看，主题是一些数据集合，这些数据集合对分析对象作了比较完整的、一致的描述，这种描述不仅涉及到数据自身，而且涉及到数据之间的关系。

面向主题的数据组织方式，就是在较高层次上对分析对象的数据的一个完整、一致的描述，能完整、统一地刻画各个分析对象所涉及的企业的各项数据，以及数据之间的联系。

所谓较高层次是相对面向应用的数据组织方式而言的，是指按照主题进行数据组织的方式具有更高的数据抽象级别,19,1.2.1面向主题

（1）,1.2.1面向主题

（2）,20,例如在图1.4所示中，我们示例了一个电信企业的情况。

该企业基于传统数据库已经建立有计费数据库、财务数据库、客户服务数据库等。

其中，计费数据库记录了客户的消费情况，财务数据库记录了客户的缴费情况，客户服务数据库记录了客户的咨询和投诉情况，这些数据库里都有与客户主题相关的数据。

如果直接基于传统数据库系统进行“客户”和“收益”信息的分析，则需要访问多个数据库才能获得客户或收益各个侧面的信息（收益主题需从计费数据库和财务数据库中了解公司各项业务的收入情况；客户主题则要从计费数据库、财务数据库、客户服务数据库中获得客户消费、交费、咨询等全方位的信息。

），这样将极大的影响系统处理的时间和效率，并且数据之间的不一致性和不同步等问题将影响决策的可靠性。

而以“客户”和“收益”主题组织的数据仓库，将某个主题的全部相关数据集中于一个地方，这样决策者可以非常方便地在数据仓库中的一个位置检索包含某个主题的所有数据。

21,1.2.1面向主,题（3）,如图1.5所示显示了某电信企业的“客户主题”的数据存储，属于“客户”主题域的数据集合使用相同的公共键码“客户标识”来连接。

从图1.5中可看到，数据在数据仓库中还是以数据表的形式进行存储，但是，数据的组织方式和建模方法已经同数据库系统有了较大的改变。

1.2.1面向主,22,题（4）,数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来，但并不是原有数据的简单拷贝，而是经过了抽取、筛选、清理、综合等工作。

这是因为：

原有数据库系统记录的是每一项业务处理的流水帐，这些数据不适合于分析处理。

在进入数据仓库之前必须经过综合、计算，同时抛弃一些分析处理不需要的数据项，必要时还要增加一些可能涉及的外部数据。

数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处，必须将这些数据转换成全局统一的定义，消除不一致和错误之处，以保证数据的质量；显然，对不准确，甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策。

源数据加载到数据仓库后，还要根据决策分析的需要对这些数据进行概括、聚集处理。

事实上，决策支持系统需要集成的数据。

全面而正确的数据是有效地分析和决策的首要前提，相关数据收集得越完整，得到的结果就越可靠。

因此，对源数据的集成是数据仓库建设中最关键，也是最复杂的一步。

23,1.2.2集成,但对于决策分析而言，历史数据是相当重要的，许多分析方法必须以大量的历史数据为依托。

没有大量历史数据的支持是难以进行企业的决策分析的，因此数据仓库中的数据大多表示过去某一时刻的数据，主要用于查询、分析，不像业务系统中的数据库那样，要经常进行修改、添加，除非数据仓库中的数据是错误的。

图1.6中形象地说明了数据仓库中数据的稳定性，可以看到数据仓库在数据存储方面是分批进行的，定期执行提取过程为数据仓库增加数据，这些数据一旦加入，一般不再从系统中删除。

24,1.2.3稳定业务系统一般只性需（要1当）前数据，在数据库中一般也只存储短期数据，因此在数据库系统中数据是不稳定的，它记录的是系统中数据变化的瞬态。

1.2.3稳定性

（2）,25,1.2.4随时间而变化,数据仓库中数据是批量载入的，是稳定的，这使得数据仓库中的数据总是拥有时间维度。

从这个角度，数据仓库实际是记录了系统的各个瞬态，并通过将各个瞬态连接起来形成动画，从而在数据分析的时候再现系统运动的全过程。

数据批量载入（提取）的周期实际上决定了动画间隔的时间，数据提取的周期短，则动画的速度快，图1.7示意了这种特点。

26,第一章目录,1.1从数据库到数据仓库1.2什么是数据仓库1.3数据仓库与传统数据库的比较1.4数据仓库的系统结构1.5数据仓库的数据组织1.6本章小结,27,1.3数据仓库与传统数据库的比较,1.3.1两个系统的主要区别

（1）传统数据库系统的主要任务是执行联机事务和查询处理。

这种系统称为联机事务处理（OLTP）系统。

它们涵盖了一个组织的大部分日常操作，如购买、库存、制造、银行、工资、注册、记帐等。

另一方面，数据仓库系统在数据分析和决策支持方面提供服务。

这种系统称为联机分析处理（OLAP）系统。

两个系统的主要区别概括如下：

数据内容：

数据库系统管理当前数据。

通常，这种数据太琐碎，难以用于决策。

数据仓库系统管理大量历史的、存档的、归纳的、计算的数据，提供汇总和聚集机制，并在不同的粒度级别上存储和管理信息。

这种特点使得系统容易用于“见多识广”的决策。

28,1.3.1两个系统的主要区别

（2）数据目标：

数据库系统是面向业务操作，用于办事员、客户和信息技术专业人员的事务和查询处理。

数据仓库是面向主题的，用于知识工人（包括经理、主管和分析人员）的决策分析。

数据特性：

数据库系统存储的是当前数据，数据是动态变化的，按字段进行更新操作。

数据仓库中数据是批量载入的、静态的，系统定期执行提取过程为数据仓库增加数据，这些数据一旦加入，一般不再从系统中删除。

数据结构：

数据库系统采用面向应用的数据库设计，以高度结构化和复杂的形式组织数据，以适应复杂的事务操作计算的需求。

数据仓库通常采用面向主题的星型或雪花数据组织模式（在4.3.2节讨论），以适应分析决策，数据结构简单。

29,1.3.1两个系统的主要区两个系统的其他区别包括使用频率、数据访问量、对响应时间的要求等。

这些都概括在表1.1中。

30,别（3）,1.3.2两个系统的查询支持不同,OLTP系统是为了快速回答简单查询，而不是为了存储分析趋势的历史数据而创建的。

一般的，OLTP提供了大量的原始数据，这些数据不易被分析。

数据仓库需要回答更复杂的查询，而不仅仅是一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。

数据仓库需要回答的查询类型可以是简单的查询，也可以是高度复杂的，且还与终端用户使用的查询工具相关。

以下是某数据仓库支持的一些查询示例:

2008年第三季度，整个英格兰的总收入是多少？

2007年英国每一类房产销售的总收入是多少？

2008年租借房产业务中每个城市哪个地域最受欢迎？

与过去的两年相比有何不同？

每个分支机构本月的房产销售月收入是多少，并与刚过去的12个月相比较。

如果对于10万英镑以上的房产，法定价格上升3.5%而政府税收下降1.5%，对英国不同区域的销售会产生什么影响？

在英国主要城市中，哪种类型的房产销售价格高于平均房产销售价格？

这与人口统计数据有何联系？

31,1.3.3两个系统数据组织模式示例比较

（1）,32,1.3.3两个系统数据组织模式示例比较

（2）,33,1.3.3两个系统数据组织模式示例比较（3）从上述实例，不难看出：

在从面向应用到面向主题的转变过程中，丢弃了原来有的但不必要的、不适于分析的信息；在原有的数据库模式中，有关商品的信息分散在各个子系统之中；面向主题的数据组织方式所强调的就是要形成关于主题一致的信息集合；不同主题之间有重叠内容。

34,第一章目录,1.1从数据库到数据仓库1.2什么是数据仓库1.3数据仓库与传统数据库的比较1.4数据仓库的系统结构1.5数据仓库的数据组织1.6本章小结,35,1.4数据仓库的系统结构,1.4.1三层数据仓库结构

（1）数据仓库的系统结构可以用图1.8来表由示于。

数据库和数据仓库应用的出发点不同，数据仓库将独立于业务数据库系统，但是数据仓库又同业务数据库系统息息相关。

36,37,1.4.1三层数据仓库结构

（2）,38,1.4.1三层数据仓库结,构（3）原则上，数据仓库的系统结构被划分为三层：

数据仓库服务器、OLAP服务器和前端工具。

底层是数据仓库服务器，它几乎总是一个关系数据库系统。

数据仓库系统使用后端工具和实用程序从操作数据库和外部信息源加载和刷新它的数据，这些机制统称ETL（Extract/Transformation/Load）工具，它们具有数据抽取、数据清洗、数据转换、数据加载和数据刷新等功能。

此外，这一层还包含一个元数据存储，它是关于数据仓库和数据仓库中数据的信息，关于元数据的进一步描述在1.4.2小节。

中间层是OLAP服务器，其典型的实现有：

（）关系OLAP（ROLAP）模型，即扩展的关系DBMS，它将多维数据上的操作映射为标准的关系操作；（）多维OLAP（MOALP）模型，一种特殊的服务器，它直接实现多维数据操作。

OLAP服务器将在4.4小节讨论。

顶层是客户，它包括查询和报告工具、分析工具和/或数据挖掘工具（例如关联分析、分类分析、预测等）。

1.4.2数据仓库中的关键名词

（1）,下面详细讨论数据仓库中的一些关键名词。

1.ETL（Extract/Transformation/Load）数据抽取、转换、加载工具ETL工具就是进行数据的抽取、转换和加载。

具体来讲，ETL工具包括：

数据提取（dataextract）、数据转换（datatransform）、数据清洗（datacleaning）和数据加载（dataloading）。

（1）数据提取（DataExtract）从数据仓库的角度来看，并不是业务数据库中的所有数据都是决策支持所必需的。

通常，数据仓库按照分析的主题来组织数据，我们只需提取出系统分析必需的那一部分数据。

例如，某超市确定以分析客户的购买行为为主题建立数据仓库，则我们只需将与客户购买行为相关的数据提取出来，而超市服务员工的数据就没有必要放进数据仓库。

现有的数据仓库产品几乎都提供各种关系型数据接口，提供提取引擎，从关系型数据中提取数据。

39,1.4.2数据仓库中的关键名

（2）数据词转（换2（）DataTransform）由于业务系统可能使用不同的数据库厂商的产品，比如IBMDB2、Oracle、Informix、Sybase、NCRTeradata、SQL各Se种rve数r等据，库产品提供的数据类型可能不同，因此，需要将不同格式的数据转换成统一的数据格式。

如时间格式“年/月/日”，“月/日/年”、“日-月-年”的不一致问题等。

（3）数据清洗（DataClean）由于企业常常为不同的应用对象建立不同的业务数据库，比如一个电信运营公司拥有计费数据库、财务数据库、客服数据客库户、投诉数据库等业务系统，这些业务系统中可能包含重复的信息，比如客服数据库中的部分客户基本信息也在客户投诉数据库中存在，由于不同的数据库可能使用不同数据库公司的产品，不同的业务系统可能由不同的软件开发商提供，这使得各个业务数据库中的数据可能存在不一致现象。

再者，由于数据被冗余地存放在不同的数据库中，如果不同数据库间的数据刷新不是实时则的可，能出现数据不同步的情况。

40,（4）数据加载（DataLoad）数据加载部件负责将数据按照物理数据模型定义的表结构装入数据仓库，包括清空数据域、填充空格、有效性检查等步骤。

现在ETL工具的功能越来越强。

它具有支持数据的“净化提炼”功能、数据加工功能和自动运行功能（包括处理过程的监控、调度和外部批处理作业的启动等），支持多种数据源，能自动实现数据抽取。

所谓数据的“净化提炼”就是对从多个不同业务数据库所抽取的数据，进行数据项名称的统一、位数的统一、编码的统一和形式的统一，消除重复数据。

1.4.2数据仓库中的关键名词（3）对于决策支持系统来说，最重要的是决策的准确性，因此确保数据仓库中数据的准确性是极其重要的。

从多个业务系统中获取数据时，必须对数据进行必要的清洗，从而得到准确的数据。

所谓“清洗”就是将错误的、不一致的数据在进入数据仓库之前予以更正或删除，以免影响决策支持系统决策的正确性。

41,1.4.2数据仓库中的关键名词（4）2.元数据（MetaData）“什么是元数据？

”元数据是描述数据的数据。

在数据仓库中，元数据是定义数据仓库对象的数据。

元数据包括相应数据仓库的数据名和定义、数据提取操作时被提取数据的时间和地点以及数据清理或数据集成过程添加的字段等。

它提供了有关数据的环境，用于构造、维持、管理、和使用数据仓库，在数据仓库中尤为重要。

元数据通常包括：

数据仓库结构的描述信息，包括仓库模式、视图、维、层次结构和导出数据的定义，以及数据集市的位置和内容。

操作元数据，包括数据血统信息（来自何处以及如何转换的），数据流通信息（主动的、档案的或净化的）以及监视信息（仓库使用统计、错误报告、审计跟踪）。

汇总用的算法，包括度量与维定义算法，数据粒度、分割、主题域、聚集、汇总、预定义查询与报告的算法。

42,1.4.2数据仓库中的关键名词（5）由操作环境到数据仓库的映射信息，包括源数据库和它们的内容，ETL程序描述，数据分割、提取、清理和转换的规则和缺省，数据刷新和裁减的规则以及数据安全信息（用户授权和存取控制）。

关于系统性能的数据信息，除刷新、更新和复制周期的定时和调度的规则外，还包括改善数据存取和检索性能的

展开阅读全文