第一章数据仓库基本概念及通用框架.pptx

上传人:A**** 文档编号:15122912 上传时间:2023-07-01 格式:PPTX 页数:38 大小:145.55KB
下载 相关 举报
第一章数据仓库基本概念及通用框架.pptx_第1页
第1页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第2页
第2页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第3页
第3页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第4页
第4页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第5页
第5页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第6页
第6页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第7页
第7页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第8页
第8页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第9页
第9页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第10页
第10页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第11页
第11页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第12页
第12页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第13页
第13页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第14页
第14页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第15页
第15页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第16页
第16页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第17页
第17页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第18页
第18页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第19页
第19页 / 共38页
第一章数据仓库基本概念及通用框架.pptx_第20页
第20页 / 共38页
亲,该文档总共38页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

第一章数据仓库基本概念及通用框架.pptx

《第一章数据仓库基本概念及通用框架.pptx》由会员分享,可在线阅读,更多相关《第一章数据仓库基本概念及通用框架.pptx(38页珍藏版)》请在冰点文库上搜索。

第一章数据仓库基本概念及通用框架.pptx

MIS的应用海量信息产生了与传统数据库有很大差异的数据环境如何从这些海量数据中获取专门的知识1基本概念2数据仓库的通用框架参考书,第一章数据仓库基本概念及通用框架,1基本概念1.数据仓库的定义数据仓库(DW,DataWarehouse)是“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。

WilliamH.Inmon,1993面向主题的:

对应某一个宏观分析领域,如,销售。

CH1,上述概念中涉及到的“主题”:

在一个较高管理层次上,对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象基于信息管理的角度;是一些数据的集合,这些数据集合对分析对象进行了比较完整的、一致的描述,这种描述不仅涉及到数据自身,还涉及到数据间的联系基于数据组织的角度。

CH1,因此,数据仓库的该特性要求:

抽取主题按决策分析过程进行。

界定数据确定所抽取的主题包含哪些数据。

组织数据如何组织上述数据(往往使用多维数据库或关系数据库的方式进行组织)。

CH1,例如:

根据销售管理要考虑的问题(如:

哪些产品销量大/利润高?

哪些客户采购量多?

竞争对手的哪些产品对本企业构成威胁?

),可以抽取出“产品”、“客户”为主题;为了描述产品的销售活动,销售业务处理系统中一般包含以下数据:

产品订单、产品销售明细、产品库存、客户等在进行决策分析过程中(如,哪些客户采购量多?

),上述数据只有客户数据是可用的,其它数据仅用于业务操作;然而,仅有“客户”数据还不足以完成对客户的分析,还要围绕客户进一步组织所有相关数据如,客户产品采购量、最后一次采购时间、采购竞争对手产品量(落在外部系统中)、客户信誉(落在财务系统中)等。

集成的对分散在各处的数据源进行抽取、筛选、清理、综合等加工工作,然后存放在数据仓库中,可见,集成是建立DW的关键步骤。

数据仓库的数据主要源于各个业务处理系统,由于其用途各不相同,因此需上述处理工作。

清理把各个数据源的单位、内容、字长等统一起来,消除字段名的同名异义、异名同义等现象。

CH1,随时间变化的(时变性)数据仓库中的数据,虽然不像业务处理系统那样记载的是实时数据,但也要随着时间的推移补充与主题相关的、变化了的数据(快照),快照的时间间隔根据决策需求而定(年/月/天)。

此外还有:

删除过了时的数据;及时更新DW中的那些概括数据。

为满足时变性进行的所有操作统称为数据仓库的刷新。

CH1,非易失的DW的非易失性指的是,数据一旦进入数据仓库后,便不进行更新处理(但可以追加新数据),并且将保持一个相当长的时间。

数据仓库查询、分析业务处理系统随时记录发生的业务因此,DW中,可以可以通过索引、预计算等方式来提高查询效率。

CH1,集合性事实上,“面向主题的”便要求DW以主题的某种数据集合的形式存储数据,其形式为以下三种之一:

多维数据库方式关系数据库方式多维数据库与关系数据库组合方式显然,DW中,“集合”是否全面决定了数据仓库应用范围的大小。

CH1,支持决策建立数据仓库的目的就是支持决策,其用户可以是高层/中层/基层管理者,他们可以利用所提供的分析工具,发现DW数据中隐含的商机,使得管理决策更加科学化。

CH1,2.DW与传统DB的比较,CH1,3.数据仓库的概念结构数据仓库的概念结构包含:

数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。

CH1,4.虚拟数据仓库结构虚拟数据仓库利用(描述了业务系统中数据位置和抽取数据算法的)元数据直接从业务系统中抽取查询的数据进行概括、聚合操作后,将最终结果提供给用户。

思考:

优、缺点?

CH1,5.数据集市结构数据集市,或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,它没有一个独立的数据仓库。

系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。

思考:

优、缺点?

CH1,6.单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构。

数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。

思考:

优、缺点?

CH1,7.分布式数据仓库结构各分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,分公司设置各自的局部数据仓库。

局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据。

思考:

优缺点?

CH1,2数据仓库的通用框架框架把复杂的事物分为若干细小的易于理解的构件的形式。

数据仓库研究中,常称为通用框架,或参考框架。

最初,DW的通用框架被描述为:

数据集合(从运行的DB中抽取);软件环境(供用户存取数据);应用程序及工具集合(用于复杂查询)。

CH1,为了有助于理解,并给出DW实现过程中所需的更为详细的信息,对上述框架进行了进一步细化。

右图给出了细化之后通用框架的顶层结构。

数据管理,数据源,DW结构,数据站场结构,DW存取使用,元数据管理,传输,基础结构,工具、技术及角色(附加层),CH1,若干说明:

框架由若干层和块组成;数据管理和元数据管理层包括对数据的抽取、加载、更新等操作,以不断为DW和数据站场提供数据;传输层和基础结构层对DW及数据站场提供通用服务;附加层提供支持DW的方法(学),可按该层的要求构建DW及相应的工具。

一般,数据源块、传输层和基础结构层是企业已有的,其他块、层均需新建。

具体应用时,设计者可以从通用框架中选取有用的构件,没用的可以忽略。

CH1,1.数据源块,产品数据也称业务数据,由生产系统产生,并保存在生产系统的数据库中,且,该数据库可以是任意类型的(如,关系、层次、网络等类型)。

注意:

产品数据(业务数据)与数据仓库模型之间的关系。

CH1,遗留数据脱机或档案数据,也称历史数据。

特点:

可能不支持当前应用程序;用专用的程序输入到DW中;对DM很有用。

内部办公系统数据来源之一,一般是非商业的,也不存放在当前运行的DB中,其形式有以下几种:

CH1,非结构化数据(如,非电子的);结构化数据(报表、文本文档等);半结构化数据(年度报表等)。

外部系统有各种可能的形式,或各种想象得到的形式。

数据源元数据元数据是关于数据的数据,如:

数据的名称、数据内容的定义、数据创建的日期、数据的来源等。

CH1,随着DW以及Internet的应用与发展,数据源块中又增加了“Web数据”块(如左图所示)。

Web数据,通常是HTML方式的,因此,需要转换才能加载进数据仓库之中。

业务数据,历史数据,办公数据,外部数据,数据源元数据,Web数据,CH1,2.DW结构块由求精、重构工程和数据仓库构成。

标准化,过滤与匹配,净化,标明时间戳的数据源,确认数据质量,集成与分割,概括与聚集,预算与推导,翻译与格式化,转换与映像,元数据创建,元数据抽取与创建,建模,概括,集聚,调整与确认,建立结构化查询,创建词汇表,元数据浏览与导航,重构工程,数据仓库,求精,CH1,求精有的资料中,把“求精”子块称为“数据准备区”,且与“数据源”等并列列出。

统一处理同名不同内容、同内容不同名、同名同内容但结构不同的数据。

对进入DW的数据进行筛选从数据源删除用户不需要的数据,留下与用户需求相匹配的数据。

对准备加载到DW的数据进行正确性判断把那些内容、格式或类型不对的数据进行修正。

例如,DW中“邮政编码”是字符型的,则数据源中所有数值型的“邮政编码”均需先行转换。

DW中,经常要进行数据的概括等计算,以分析事物的发展趋势。

这些工作均要求相应的数据具有明确的时间属性,因此,数据加载到DW之前,要完成其时间戳的设置。

虽然“标准化”、“过程与匹配”、“净化”等对数据的质量有了一定的保证,但加载到DW前,还要进行“确认数据质量”的操作通常用手工或软件自动检测方式完成。

在数据求精过程中,同时还要根据数据源确定相应数据的元数据,包括名称、定义、创建者、创建时间等。

CH1,重构工程为了使DW更好地为用户服务所进行的一系列操作。

集成与分割,概括与聚集,预算与推导,翻译与格式化,转换与映像,元数据创建,把一个表的数据分割为多个数据块(按日期/地理位置/时间);把多个数据源的若干数据集合为一块。

概括与聚集就是按照某一(组)属性进行汇总根据建立DW的需求,预先把某些常用的汇总求出并存储在DW中,以提高DW的效率。

对DW用户的常规操作进行的预设置,包括这些操作的结果的存储以及相应算法的存储(做为元数据),其目的也是提高将来DW的使用效率。

对来自于不同数据源的数据进行翻译和格式化处理以便于日后的统一处理。

例如,客户的性别不同的数据源中可能有不同的表示值,加载到DW后,要统一起来。

大多数数据源是关系模型,DW一般采用星形模型或雪花模型。

转换与映射就是连接数据源与DW的,它不仅指明了两者数据间的关系,还消除了其模型间的差异。

参见下一小节。

CH1,数据仓库(创建)数据仓库的核心功能块。

建模,概括,集聚,调整与确认,建立结构化查询,创建词汇表,元数据浏览与导航,设计数据仓库的数据模型(一般为星形或雪花形模型),包括数据的分割、主题域和粒度的确认等。

根据用户的需要,从初步的概括中建立高度的数据概括。

概括的程度与用户使用的时间等因素有关。

根据用户的典型查询需求进行聚集处理。

如,可以对产品的地区分布、品牌的分布等进行聚集处理。

对完成了概括与聚集的数据进行确认,如果效果不好,则需进行调整直至满意为止。

为了提高DW的使用效率而预定义一些常用的结构化查询,这些查询及其结果均作为元数据存储起来备用。

实际上每个块都具有该功能(可称之为元数据的管理)。

具体包括元数据浏览与导航、元数据创建、创建词汇表等。

CH1,3.数据站场(集市?

)结构块其构成如下:

CH1,注:

有了DW的单位,该块是可选的;数据站场与数据仓库功能上相似。

数据站场的主要功能:

过滤、匹配从DW中抽取的数据;将DW集成到新的主题域;创建新的概括或聚集;将DW中初步概括的数据进行高度概括;导出新数据(对不同时间、来源者)。

CH1,4.DW存取与使用块实现DW的最终功能为用户提供决策分析和知识挖掘的功能。

DW直接存取,数据集市存取,重构工程,转换为多维结构,创建局部存储,元数据抽取与创建,报表工具,分析工具,业务建模工具,DM工具,新产品应用工具,元数据管理与报表,OLAP,存取与检索,分析与报表,管理DW元数据,CH1,存取与检索为用户提供访问DW或数据集市的功能。

DW直接存取,数据集市存取,重构工程,转换为多维结构,创建局部存储,利用这些功能,用户可以将检索到的数据转变为多维数据并存储到多维数据库中;可以把DW或数据集市的数据“卸载”下来以便进行局部分析、数据挖掘等。

CH1,分析与报表为用户提供一组利用DW或数据集市进行决策分析或知识挖掘的工具。

报表工具,分析工具,业务建模工具,DM工具,新产品应用工具,OLAP,包括:

GIS,DM工具,OLAP,可视化工具,EIS,4GL,统计工具,Internet浏览器,元数据浏览器,GUI程序,电子表格,报表生成器,数据访问工具等。

CH1,元数据管理,元数据抽取与创建,元数据管理与报表,1.帮助用户了解DW及数据集市的名称、描述说明、数值、价值来源等;2.了解数据的名称、数值以及从抽取到存入DW或数据集市的过程等;3.了解数据的定位、数据的可靠性以及如何存取和使用数据;,4.帮助用户掌握数据的正确内容、信息的粒度、信息的概括程度、原始数据的来源和日期等;5.帮助验证数据源的质量、判断数据的可靠性等。

CH1,5.数据管理层模块该模块的构成如图所示。

1.从数据源抽取数据;2.需要时,追踪并充实数据;3.数据查询中的并行处理的管理等。

1.完成数据的加载;2.捕捉数据的变化并用以充实数据仓库;3.根据用户以及DW管理需求更新DW等。

1.禁止用户进行非法操作;2.赋予用户以不同的操作权限等。

1.定期地进行归档、备份,以便恢复系统;2.对从数据源抽取的数据进行筛选、数据标准及内容的统一、各种求精重构净化等管理。

CH1,6.元数据管理层模块该模块的构成如图所示。

数据仓库、数据集市/知识挖掘库和词汇表管理,利用词汇表管理DW或数据集市中的逻辑数据模型和物理数据模型以及与业务和技术相关的数据说明。

在对数据源进行数据抽取、清理、加载等操作中,同时要进行相关的元数据的抽取、创建、存储和更新。

把预定义的查询和报表处理方式甚至结果以及多级索引等存储在元数据库中,以提高DW的使用效率。

元数据抽取、创建、存储和更新管理,预定义的查询、报表和索引管理,刷新与复制管理,登录、归档、恢复与净化管理,CH1,7.传输层组成如图所示。

主要功能是实现不同结构块之间的数据传送。

第一层:

具体包括:

网络协议,如TCP/IP等;网络管理,如IBM的NetView等;网络操作系统;网络类型,如,以太网等。

CH1,第二层:

DB网关;面向消息的中间件;对象请求代理等。

第三层:

传输和复制系统;DB网关内定义的复制工具;DB指定的产品。

第四层:

尚无具体的产品,正逐步被重视。

CH1,8.基础结构层组成如图所示。

第一层:

提供DW中执行、管理等应用程序;第二层:

提供协调机制,使得针对DW的各种工作有条不紊地进行;第三层:

为数据源、DW、数据站场提供存储服务;第四层:

提供通用框架主要模块的操作环境。

CH1,陈京民,数据仓库与数据挖掘技术,电子工业出版社姚家奕,数据仓库与数据挖掘技术原理及应用,电子工业出版社苏新宁等,数据仓库和数据挖掘,清华大学出版社徐洁磐,数据仓库与决策支持系统,科学出版社,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 总结汇报 > 学习总结

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2