第2章数据仓库的数据存储与处理.pptx

资源描述

第2章数据仓库的数据存储与处理.pptx

《第2章数据仓库的数据存储与处理.pptx》由会员分享，可在线阅读，更多相关《第2章数据仓库的数据存储与处理.pptx（57页珍藏版）》请在冰点文库上搜索。

第2章数据仓库的数据存储与处理.pptx

数据仓库与数据挖掘,第2章数据仓库的数据存储与处理,2,2.1数据仓库的三层数据结构,2.2数据仓库的数据特征,2.3数据仓库的数据ETL过程,2.4多维数据模型,主要内容,3,2.1数据仓库的三层数据结构,数据,元数据,源数据,数据仓库中的数据,数据集市中的数据,4,DataWarehouse,OLAP服务器,AnalysisQueryReportsDatamining,Monitor&Integrator,Metadata,数据源,前端工具,Serve,DataMarts,数据仓库服务器,OLAPServer,操作型（元）数据,数据仓库（元）数据,数据集市（元）数据,5,2.2数据仓库的数据特征,2.2.1、状态数据与事件数据,描述对象的状态即为状态数据，描述对象发生的事件即为事件数据,两者关系为:

状态数据事件数据状态数据例如：

银行取款事件K帐户A余额S1银行取款事件K帐户A余额S2上述数据（含状态数据和事件数据）均可以存储在数据库中。

如：

事件数据：

日期帐户取款标示取款金额2010.2.2043472150000状态数据:

帐户日期存/取金额帐户余额434722010.1.25存款7000193000（S1）434722010.2.20取款5000143000（S2）,6,2.2.2、当前数据与周期数据,当前数据只保留当前的最新数据，现存的最新记录将改变以前记录中的内容；即历史数据将被破坏。

如下表。

7,商品名称,2008-7-252008-7-252008-7-262008-7-26,15503025,A品牌方便面B品牌衣服C品牌矿泉水A品牌方便面,A001B002C003A001,销售日期,日销售量,商品编号,简化的销售日报表（周期数据类型）,1天后简化简化的销售日报表（周期数据类型）,周期数据不仅保留当前的最新数据，而且保留历史数据。

作为每条记录，都有一个日期时间戳表示其发生日期。

如下表。

8,2.2.3数据仓库中的元数据,元数据就是定义数据的数据，也就是说明数据仓库对象的数据.可以分成技术元数据与业务元数据。

数据仓库结构的描述。

如仓库模式、视图、维、层次结构、导出数据的定义，以及数据集市的位置和内容业务系统、数据仓库和数据集市的体系结构和模式汇总用的算法由操作环境到数据仓库的映射,技术元数据,9,操作元数据：

包括数据血统（datalineage，即数据来源）、数据类别（currencyofdata），对象名，属性名等访问数据的原则和数据的来源商务元数据：

商务术语和定义、数据拥有者信息系统所提供的分析方法和公式、报表等信息,业务元数据,从业务角度描述数据仓库的数据,10,表2-3元数据举例,11,传统的异种数据库集成-查询驱动在多个异种数据库上建立包装程序（wrappers）和中介程序（mediators）查询驱动方法当从客户端传过来一个查询时，首先使用元数据字典将查询转换成相应异种数据库上的查询；然后，将这些查询映射和发送到局部查询处理器；局部查询集成为全局回答。

缺点：

复杂的信息过滤和集成处理，竞争资源数据仓库-更新驱动将来自多个异种源的信息预先集成，并存储在数据仓库中，供直接查询和分析高性能,2.3数据仓库的数据ETL过程,12,传统的异种数据库集成:

数据仓库:

更新驱动,异种数据库,13,2.3数据仓库的数据ETL过程,ETL概念,数据ETL是用来实现异构数据源的数据集成，即完成数据的如下工作：

抓取/抽取（Capture/Extract）清洗（Scrubordatacleansing）转换（Transform）装载与索引（LoadandIndex）等数据集成工作,14,数据具有的特点：

详细的历史的规范化的,2.3.1ETL的目标,ETL过程的目标：

为决策支持应用提供一个单一的、权威的数据源。

可以理解的即时的质量可控制的,15,2.3.1ETL的目标,操作性数据的特点：

即时的，而非历史的规范程度不一，依赖于数据来源限制在特定的应用范围质量较差，例如不一致等,16,2.3.2数据的ETL过程描述,17,2.3.3数据抽取（Capture/Extract）,定义：

从源文件或者源数据库获取相关数据用于填充数据仓库，称为数据抽取。

静态抽取增量抽取,注意事项：

数据命名的透明度业务规则的完整性与准确性数据数据格式：

跨数据源的统一数据格式,源文件或者源数据库,数据仓库,协调,可以使用SELECTFROM.INTO.语句实现,18,2.3.3数据清洗（Scrub/Cleaning）,定义：

使用模式识别和其他技术将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。

1）空缺值,数据并不总是完整的例如：

数据库表中，很多条记录的对应字段没有相应值。

为数据解码重新格式化、改变数据类型增加时间戳,度量单位转换为表的每一行产生主码找到缺失数据,19,2.3.3数据清洗（Scrub/Cleaning）,1）空缺值（续）,引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时，有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载（不能恢复）空缺值要经过推断而补上,20,如何处理空缺值,忽略元组：

假定挖掘任务设计为分类或描述时，缺少类标号的元组通常被忽略。

元组中属性缺少值比较多时，挖掘算法的效果非常差。

人工填写空缺值：

工作量大，可行性低使用一个全局常量填充空缺值：

比如使用unknown或-使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值：

使用Bayesian公式或判定树等基于推断的方法确定。

21,）噪声数据,噪声：

一个测量变量中的随机错误或偏差。

引起不正确属性值的原因:

数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致,22,处理噪声数据方法,1、分箱（binning）先排序数据，并将他们分到等深（宽）的箱中然后对每箱使用平均值平滑、中值平滑和边界平滑等方法,23,数据平滑的分箱方法,price的排序后数据：

4，8，15，21，21，24，25，28，34,划分为（等深的）箱箱1：

4，8，15箱2：

21，21，24箱3：

25，28，34,用箱边界平滑箱1：

4，4，15箱2：

21，21，24箱3：

25，25，34,用箱平均值平滑箱1：

9，9，9箱2：

22，22，22箱3：

29，29，29,平均值平滑-箱中每个值被平均值替换中值平滑-箱中每个值被中值（排序后出现次数最多的值）替换边界平滑-最小最大值视为边界，箱中每个值被靠近的边界值替换,24,如何处理噪声数据（续）,2、聚类将联系松散的数据当作孤立点，监测并且去除孤立点。

聚类集合之外的点即为孤立点。

25,如何处理噪声数据（续）,3、回归通过让数据适应回归函数来平滑数据（线性回归或多线性回归）。

26,如何处理噪声数据（续）,4、计算机和人工检查结合计算机检测可疑数据，然后对它们进行人工判断。

27,2.3.4数据转换（Transform）,定义：

将数据从源操作型业务系统的格式转换到企业数据仓库的数据格式。

两种类型的数据转换记录级-选择、连接、规范化和聚集字段级-单字段和多字段单字段转换的基本方法：

算法和查找表,注意：

连接的复杂性。

1）不是关系情形2）不同域情形3）源数据有错误情形,28,2.3.4数据转换（Transform）,）数据集成数据集成：

将多个数据源中的数据整合到一个一致的数据存储（如数据仓库）中。

模式集成-实体识别问题匹配来自不同数据源的现实世界的实体，比如：

A.cust-id=B.customer_no？

冗余问题同一属性在不同的数据库中会有不同的字段名；一个属性可以由另外的属性导出，即两个属性是相关的。

如：

工资、基本工资、加班工资,29,（A-A平）（B-B平）RA,B=（n-1）AB,如果RA,B0，则A和B是正相关的；该值越大，则A涵盖B的可能性越大。

如果A，B相关性大，分析时就可以删除其中一个。

相关分析：

讨论两个属性的相关性。

A平=A/nA=SQRT（A-A平）2/（n-1）,其中A平、B平分别是A、B的平均值；A、B分别是A、B的标准差。

30,检测并解决数据值的冲突不同的数据表示，不同的度量等等。

例如：

对现实世界中的同一实体，来自不同数据源的属性值可能是不同的（如价格的单位：

元、千元）。

）数据集成（续）,31,）数据变换,平滑：

去除数据中的噪声。

如分箱、聚类、回归。

聚集：

对数据进行聚集和汇总，数据立方体的构建。

数据概化：

沿概念分层向上汇总。

规范化：

将数据按比例缩放，使之落入一个小的特定区间。

最小最大规范化z-score规范化小数定标规范化属性构造通过现有属性构造新的属性，并添加到属性集中。

32,数据变换规范化,maxA,minA:

属性A的最大与最小值new_maxA,new_minA:

属性A变换后区间的最大与最小值,最小最大规范化:

对原始数据进行线性变换，使得数据落在new_maxA,new_minA区间内。

例：

（一般映射到0，1区间）工资在70012000之间，则工资7830规范化后为：

V=（7830-700）/（12000-700）*（1-0）+0=0.7430,33,数据变换规范化,z-score规范化:

基于属性A的平均值和标准差规范化。

小数定标规范化：

通过移动属性A的小数点位置进行规范化。

其中j是使得max（|v|）1的最小整数。

34,3）数据归约,数据立方体聚集维归约数据压缩数值归约离散化和概念分层产生,数据仓库中往往存有海量数据，在其上进行复杂的数据分析与挖掘需要很长的时间。

数据归约可以用来得到数据集的归约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果。

数据归约策略：

35,

（1）数据立方体聚集,最底层的方体对应于基本方体基本方体对应于感兴趣的实体（基本事实表）在数据立方体中存在着不同级别的汇总数据立方体可以看成方体的格每个较高层次的抽象将进一步减少结果数据数据立方体提供了对预计算的汇总数据的快速访问使用与给定任务相关的最小方体（基本方体，注意数据立方体的晶格结构）在可能的情况下，对于汇总数据的查询应当使用数据立方体,36,（）维归约,通过删除不相干的属性（或维）减少数据量属性子集选择方法目标：

找出最小属性集，使得数据类的概率分布尽可能的接近使用所有属性的原分布。

好处：

减少出现在发现模式上的属性的数目，使得模式更易于理解。

启发式的（探索性的贪心算法）方法逐步向前选择：

从空集开始，逐步添加逐步向后删除：

从整个属性集开始，逐步删除向前选择和向后删除相结合判定归纳树：

如ID3和C4.5算法,37,（）数据压缩,有损压缩VS.无损压缩字符串压缩有广泛的理论基础和精妙的算法通常是无损压缩在解压缩前对字符串的操作非常有限音频/视频压缩通常是有损压缩，压缩精度可以递进选择有时可以在不解压整体数据的情况下，重构某个片断两种有损数据压缩方法：

小波变换和主要成分分析,38,2.数据索引：

位图索引和连接索引,2.3.6数据加载和索引（Load/Index）,1.数据加载：

将数据写入数据仓库或数据集市的过程。

刷新方式：

在定期间隔对目标数据进行批量重写-全部更新加载。

更新方式：

只将源数据中的数据改变写进数据仓库的方法，但不覆盖或删除以前的记录而是通过时间戳来区分-部分更新加载。

SQL命令，例如：

INSERT或UPDATE数据仓库供应商或第三方提供专门的加载工具由数据仓库管理员编写自定义程序,3.手段,传统索引：

将给定列上的值映射到具有该值的行表上。

连接索引：

登记来自两个关系数据库的可连接行。

例如：

R（RID,A）和S（B,SID）在属性A和B上连接，其连接索引为（RID，SID）。

连接索引举例：

40,2.4多维数据模型,导出数据的特征：

1.详细数据和聚集数据并存。

2.为特定用户和特定应用定制的数据，并为之提供快速响应。

3.数据模型为星型模式。

导出数据层的存储方式：

1.存储在多维数据库中，即按照多维数组方式存储，对应MOLAP。

2.存储在关系数据库中，采用星型模式及其变体，对应ROLAP。

41,2.4.1多维数据模型及其相关概念,1、多维数据模型的相关概念维：

是人们观察数据的特定角度，是考虑问题时的一类属性，此类属性的集合构成一个维度。

（1）从时间角度观察产品的销售，则时间是一个维（时间维）。

（2）从地理分布角度观察产品的销售，则地理分布是一个维（地理维）。

维类别（维分层）:

同一维度可以存在细节程度不同的各个类别属性。

例如：

时间维包括年、月、日；地理维包括省、市、县。

维属性：

维的一个取值。

度量：

多维数据空间中的单元格，用于存放数据，也叫事实。

粒度：

是对数据仓库中数据的综合程度高低的一个衡量。

分割：

将数据分散到各自物理单元中以便能分别处理并提高数据处理效率。

2.4多维数据模型,42,2、数据仓库的概念模型,星型模式（Starschema）事实表在中心，周围围绕地连接着维表（每维一个），事实表含有大量数据，没有冗余。

雪花模式（Snowflakeschema）星型模式的变种，其中某些维表是规范化的，因而把数据进一步分解到附加表中，模式图形成类似于雪花的形状。

事实星座（Factconstellations）多个事实表共享维表,这种模式可以看作星型模式集，因此称为星系模式（galaxyschema），或者事实星座（factconstellation）,43,星型模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,44,雪花模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,location维表包含属性集：

location_key,street,city,province_or_state,country例如：

Vancouver和Victoria都是加拿大不列颠哥伦比亚省的城市，此时location维表中这些城市实体的该属性有冗余。

45,事实星座模式实例,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,ShippingFactTable,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,46,数据综合级别早期细节级当前细节级轻度综合级高度综合级,数据的粒度-衡量综合级别的指标数据粒度越小信息越细节数据粒度级别越低数据量越大数据粒度越大综合度越高数据粒度级别越高数据量越小,3、数据综合级别与粒度,确定粒度级别需要考虑的因素分析类型数据最低粒度存储数据量,47,当前细节级,轻度综合级,高度综合级,最近3个月（2001年1月-2001年3月）客户呼叫详细数据,1995-2001年按月统计的客户呼叫信息,1995-2001年按季度统计的客户呼叫信息,1995-2001年按年统计的客户呼叫信息,2001年1月以前的呼叫详细数据,2001/3数据仓库中数据的状态,最近3个月（2001年2月-2001年4月）客户呼叫详细数据,1995-2001年按月统计的客户呼叫信息,1995-2001年按季度统计的客户呼叫信息,1995-2001年按年统计的客户呼叫信息,2001年2月以前的呼叫详细数据,2001/4数据仓库中数据的状态,早期细节级,48,2.4.2多维数据模型的实现,多维数据库（MDDB）数据存储在大量的多维数组中，而不是关系表中,与之相对应的是多维联机分析处理（MOLAP）。

关系数据库存储OLAP数据的另一种主要方式，与之对应的是关系联机分析处理（ROLAP）。

以关系数据库为核心，以关系型结构进行多维数据的表示和存储。

ROLAP将数据的多维结构划分为两类表：

事实表和维表。

49,2.4.3多维建模技术简介,满足不同层次、用户的需求兼顾查询效率与数据粒度的需求支持用户需求的变化避免对业务运营系统的性能影响提供可扩展性,创建数据仓库数据模型考虑的因素：

50,2.4.3多维建模技术简介,由Inmon提出的企业级数据仓库模型基于3NF，先建立企业级数据仓库，再在其上开发具体应用。

优点：

信息全面、系统灵活。

Kimball提出的多维模型以分析主题为基本框架组织数据，基于事实表和维表，事实表的主码由维表的所有主码组成。

1、主流建模技术,51,2.4.3多维建模技术简介,2、基于关系数据库的多维数据建模,星型模式雪花模式事实星座模式,52,1）星型模式由一个事实表和一系列维表组成,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,53,雪花模式中维表是规范的,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,54,事实星座模式中多个事实表共享维表,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,ShippingFactTable,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,55,3、关于事实表、维表及键的设计,1）关于事实表,事实表与维表的关系：

主键与外键一个事实表对应一个主题同一主题不同的粒度对应不同的事实表度量的计算,2）关于维表,维表的组成：

主键、分类层次、属性说明主键：

自然键，代理键维表的作用：

说明性信息，为事实表的检索条件维表的个数：

4-15个,56,2.4.4一个星型模式的例子,57,作业：

P451-8做到书上即可作业：

9，10，12补充题：

请给出一个实际问题，设计其面向主题的数据仓库星型模式或者雪花模型，或者事实星座模型。

展开阅读全文