云南大学数据仓库期末复习Word格式.docx

资源描述

云南大学数据仓库期末复习Word格式.docx

《云南大学数据仓库期末复习Word格式.docx》由会员分享，可在线阅读，更多相关《云南大学数据仓库期末复习Word格式.docx（8页珍藏版）》请在冰点文库上搜索。

云南大学数据仓库期末复习Word格式.docx

●操作型数据是原始的；

DSS数据是导出的。

●原始数据支持日常工作；

导出数据则支持管理工作。

4、体系化结构四个层次要点：

名字、特点、时间跨度、data用途、应用领域（服务对象）

●操作层：

细节的日常的当前值的访问频繁的面向应用的

●原子/数据仓库层：

大部分是粒度化数据随时间变化的集成的面向主题一些汇总

●部门层：

领域狭隘一些导出数据；

一些原始数据典型的部门：

财务、市场、工程、保险、制造

●个体层：

暂时的为特定目的的启发式的非重复的基于PC和工作站的

5、传统软件开发生命周期与数据仓库开发生命周期

传统的SDLC

•收集需求

•分析

•设计

•编程

•调试

•集成

•实现

requirement-driven需求驱动的、瀑布式模型

数据仓库SDLC

•实现数据仓库

•集成数据

•检验偏差

•针对数据编程

•设计DSS系统

•分析结果

•理解需求

数据驱动的、螺旋式模型

章2：

1、数据仓库定义

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合，用来支持管理人员的决策。

2、元数据定义

数据的所有者、数据的提供方式等有关的信息（是关于数据的数据）

3、粒度带来的优势及定义

定义：

粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。

细化程度越高，粒度级就越小；

相反，细化程度越低，粒度级就越大。

优势：

（1）可以从不同角度观察数据

（2）利用数据仓库对数据进行一致性协调

（3）数据仓库低级别粒度的另一个好处是灵活性

（4）粒度化的数据带来的另一个好处是其中包含了整个企业的活动和事件的历史。

而且粒度级别足够详细，使得整个企业的数据为满足不同的需要而进行重构。

4、分区的定义

数据分区是指把数据分散到可独立处理的分离物理单元中去。

5、面向主题的数据如何关联？

顾客主题域的所有物理表通过一个公共关键字联系起来。

当数据围绕主题组织时，每个关键字都有一个时间元素。

章3：

1、数据仓库设计包括2部分

与操作型系统接口的设计和数据仓库本身的设计。

2、从操作性环境加载到数据仓库中的三种数据

1.档案数据

2.操作型系统中的现有数据

3.在操作型环境不断变化的数据

3、过程模型&

数据模型

过程模型仅仅适用于操作型环境。

数据模型既可用于操作型环境，又可用于数据仓库环境。

过程模型一般包括以下内容：

（适用于数据集市的建立）

1.功能分解

2.第零层上下文图

3.数据流图

4.结构图

5.状态转换图

6.HIPO图

7.伪代码

4、稳定性分析

稳定性分析是根据各个数据属性是否经常变化的特性将这些属性进行分组。

稳定性分析（通常是物理数据库设计之前数据建模的最后一步）的最后结果就是建立具有相似特性的数据分组。

根据属性的值改变的频率来进行划分，使得同组的数据具有相似的特征

5、数据仓库中的数据模型（3层）要点、名字、各层设计关键问题

高层建模（实体关系图，ERD）：

中间层建模（数据项集，DIS）：

底层建模（物理模型）：

6、Snapshot组成部分及触发Snapshot的两种事件及其特点

“活动-发生”事件

“时间-发生”事件

前者的发生一般是随机的，而后者的发生一般是周期性的、可预测的。

组成：

1）关键字

2）时间单元

3）只与关键字相关的主要数据

4）二级数据（可选）

事件：

（1）一类事件是对离散活动信息的记录，例如填写支票，打电话。

离散活动是随机发生的。

（2）另一类快照触发器是时间。

这是一种可预期的触发器，如一天的结束，一周的结束。

7、概要记录与Snapshot的区别

使用简要记录的原因：

（1）数据仓库中的数据无法满足稳定性和不易改变的标准；

（2）海量的数据；

（3）数据的内容频繁的改变；

（4）从商业角度来看，不需要严苛的数据的历史记录；

简要记录和数据快照：

区别：

在数据仓库中的个体活动记录代表一个单一的事件；

而简要记录则代表了多个事件；

8、多维方法构成（3部分），使用场合

多维方法：

这种方法需要星形连接，事实表和维。

使用场合：

适用于数据集市，而不适合数据仓库。

9、星形连接定义维表与事实表区别

用来管理载入数据集市中某个实体的大量数据的设计结构称为星形连接。

关系数据库中强调所有的表格之间的位置和关系是对等的。

而实际上有些表格的内容远远超过其它表格。

所以在多维模型中，事实表比维表更重要，包含更多数据，事实表一般保存数值数据，而维表多保存文本数据。

章5：

1、不同存储媒介及其在价格、容量、速度上区别及DB、DW对存储媒介的需求

主存

非常快

非常贵

扩展内存

贵

高速缓存

DASD

快

适中

磁带

不快

不贵

近线储存

光盘

不慢

微缩胶片

慢

便宜

由于存在数据仓库中的数据量和数据的访问率不同这两方面的因素，所以一个满载的数据仓库应该放在多种层次的存储设备上。

2、多维DBMS（olap）（是技术）与数据仓库区别（是系统）

多维DBMS（OLAP）是一种技术，而数据仓库是一种体系结构基础。

这两者之间存在着依存的关系。

通常情况下，数据仓库是作为需要流入多维DBMS的数据的基础，将选出的细节数据的子集转入多维DBMS，在那里对数据进行汇总或聚集。

3、元数据三个来源

●源数据及建模工具中的元数据（25%）

●数据清洗过程中产生的元数据（25%）

数据文件的转换规则、字段的默认值、有效性检查的规则、分类及重排序安排等内容

●ETL（抽取/转换/加载）流程信息（50%）

章6：

1、在多层上，多个小组开发DW

（1）如何协调多个小组开发？

不协调会发生什么问题？

如何协调：

要协调不同开发小组的工作，其中包括内容的规范说明和结构的描述以及开发时间的确定等。

不协调：

如果A组的进展情况明显超前于B组和C组时，那么将出现当A组在汇总级转载他们的数据时，要使用的细节数据可能还不存在。

（2）若多个小组使用相同技术平台有何问题？

主要会造成代价问题。

数据的细节级，由于处理的数据量大，所以会要求一个企业级的平台，但对于不同汇总及，特别是较高的汇总级，他处理的数据量相对较少如果再用企业级的平台则造成的代价会过大。

（3）使用不同技术平台，互连性问题？

1）在调用级存取的兼容性（在数据仓库的任何两级之间构成细节数据和汇总数据时所采用的技术之间在调用语法上是否兼容？

如果不存在一定程度的调用语法的兼容性，纳闷接口将不会有用）

2）有效带宽（如果两级数据仓库中某一级有很大的传输处理负载，那么两个系统间的接口将会成为瓶颈）

2、局部/全局DW的三个关键问题

1）数据的重叠后者冗余

2）体系结构化信息环境中信息请求的路径选择问题

3）数据从局部数据仓库到全局数据仓库的传输

3、使用一个集中式DW的原因（开头第一小段）

1）数据仓库中的数据是全企业范围内集成的，而且只有总部才会使用集成的数据

2）公司是以集中式商务模式运作的

3）数据仓库中的数据量非常大，将数据集中存储在一个地方是较为妥当的

4）即使数据能被集成，但是，若将它们分布于多个局部站点，那么存取这些数据将是很麻烦的

章13：

1、DW设计两个模型

（1）关系模型：

采用”Inmon”方法

（2）多维模型：

采用”Kimball”方法（星形连接）

2、1NF、2NF、3NF

第一范式（1NF）是指数据库表的每一列都是不可分割的基本数据项，同一列中不能有多个值，即实体中的某个属性不能有多个值或者不能有重复的属性

第二范式：

完全依赖于主键[消除非主属性对主码的部分函数依赖]

第三范式：

不依赖于其它非主属性[消除传递依赖]

3、两种模型区别

灵活性和性能方面：

关系模型具有高灵活性，但是对用户来说在性能方面却不是理想的。

多维模型在满足用户方面是非常高效的，但是灵活性不是很好。

设计范围方面：

多维设计只能在有限的范围内进行。

4、独立/从属datamart区别

从属数据集市是利用来自数据仓库的数据建立的。

它的数据源不依赖于历史数据或操作型数据，只依赖于数据仓库。

从属数据集市要求有预先的计划、长期的观察、全局的分析和企业不同部门对需求分析的合作和协调。

而独立数据集市是直接通过历史应用创建的数据集市。

它可以由单个部门创建，而不需要考虑其他部门。

建立独立数据集市也不需要有“全局思想”考虑。

展开阅读全文