数据仓库与数据挖掘考试习题汇总.docx

资源描述

数据仓库与数据挖掘考试习题汇总.docx

《数据仓库与数据挖掘考试习题汇总.docx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘考试习题汇总.docx（39页珍藏版）》请在冰点文库上搜索。

数据仓库与数据挖掘考试习题汇总.docx

数据仓库与数据挖掘考试习题汇总

第一章

1、数据库房就是一个面向主题的、集成的、相对稳固的、反应历史变化的数据会合。

2、元数据是描绘数据库房内数据的结构和成立方法的数据，它为接见数据库房供给了一个信息目录，依据数据用途的不同可将数据库房的元数据分为技术元数据和业务元数据两类。

3、数据办理往常分红两大类：

联机事务办理和联机解析办理。

4、多维解析是指以“维”形式组织起来的数据（多维数据集）采纳切片、切块、钻取和旋转等各样解析动作，以求解析数据，使拥戴能从不同角度、不同侧面察看数据库房中的数据，进而深入理解多维数据集中的信息。

5、ROLAP是鉴于关系数据库的OLAP实现，而MOLAP是鉴于多维数据结构组织的OLAP实现。

6、数据库房依照其开发过程，其重点环节包含数据抽取、数据储存于管理和数据表现等。

7、数据库房系统的系统结构依据应用需求的不同，能够分为以下4种种类：

两层架构、独立型数据会合、以来型数据联合和操作型数据储存和逻辑型数据集

中和及时数据库房。

8、操作型数据储存其实是一个集成的、面向主题的、可更新的、目前值的（可是可“挥发”的）、公司级的、详尽的数据库，也叫营运数据储存。

9、“及时数据库房”认为着源数据系统、决议支持服务和库房库房之间以一个靠近及时的速度互换数据和业务规则。

10、从应用的角度看，数据库房的发展演变能够归纳为5个阶段：

以报表为主、以解析为主、以展望模型为主、以营运导向为主和以及时数据库房和自动决议

为主。

第二章

1、调解数据是储存在公司级数据库房和操作型数据储存中的数据。

2、抽取、变换、加载过程的目的是为决议支持应用供给一个单一的、威望数据

源。

所以，我们要求ETL过程产生的数据（即调解数据层）是详尽的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常有种类是静态抽取和增量抽取。

静态抽取用于最先填凑数据库房，增量抽取用于进行数据库房的保护。

4、粒度是对数据库房中数据的综合程度高低的一个权衡。

粒度越小，细节程度越高，综合程度越低，回答查问的种类越多。

5、使用星型模式能够从必定程度上提升查问效率。

由于星型模式中数据的组织已经经过预办理，主要数据都在宏大的事实表中。

6、维度表一般又主键、分类层次和描绘属性构成。

对于主键能够选择两种方式：

一种是采纳自然键，另一种是采纳代理键。

7、雪花型模式是对星型模式维表的进一步层次化和规范化来除去冗余的数据。

8、数据库房中存在不同综合级其余数据。

一般把数据分红4个级别：

初期细节级、目前细节级、轻度综合级和高度综合级。

第三章

1、SQLServerSSAS供给了全部业务数据的赞同整合试图，能够作为传统报表、在线解析办理、重点性能指示器记分卡和数据发掘的基础。

2、数据库房的观点模型往常采纳信息包图法来进行设计，要求将其5个构成部

1/22

分（包含名称、维度、类型、层次和胸怀）全面地描绘出来。

3、数据库房的逻辑模型往常采纳星型图法来进行设计，要求将星型的各种逻辑

实体完好地描绘出来。

4、依照事实表中胸怀的可加性状况，能够把事实表对应的事实分为4种种类：

事务事实、快照事实、线性项目事实和事件事实。

5、确立了数据库房的粒度模型此后，为提升数据库房的使用性能，还需要依据拥戴需求设计聚合模型。

6、在项目实行时，依据事实表的特色和拥戴的查问需求，能够采纳时间、业务种类、地区和部下组织等多种数据切割种类。

7、当维表中的主键在事实表中没有与外键关系时，这样的维称为退化维。

它于事实表并没关系，但有时在查问限制条件（如订单号码、出货单编号等）中需要用到。

8、维度能够依据其变化快慢分为元变化维度、迟缓变化维度和强烈变化维度三类。

9、数据库房的数据量往常较大，且数据一般极少更新，能够经过设计和优化索引结构来提升数据存取性能。

10、数据库房数据库常有的储存优化方法包含表的合并与簇文件、反向规范化引入冗余、表的物理切割（分区）。

第四章

1、关系规则的经典算法包含Apriori算法和FP-growth算法,此中FP-grownth

算法的效率更高。

2、假如L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则

连结产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}

再经过修剪，C3={{a,b,c},{a,b,d}}

3、设定supmin=50%,交易集如

则L1={A}，{B}，{C}L2={A,C}

ABC

BEF

第五章

1、分类的过程包含获取数据、预办理、分类器设计和分类决议。

2、分类器设计阶段包含三个过程：

区分数据集、分类器结构和分类器测试。

3、分类问题中常用的评论准则有精准度、查全率和查准率和会合均值。

4、支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。

第六章

1、聚类解析包含连续型、二值失散型、多值失散型和混淆种类4种种类描绘属性的相像度计算方法。

2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。

3、区分聚类方法对数据集进行聚类时包含三个重点：

选种某种距离作为数据样本减的相像性胸怀、选择评论聚类性能的准则函数和选择某个初始分类，以后用迭代的方法获取聚类结果，使得评论聚类的准则函数获得最优值。

2/22

4、层次聚类方法包含凝集型和分解型两中层次聚类方法。

填空题20分，简答题25分，计算题2个（25分），综合题30分

1、数据库房的构成？

数据库房数据库，数据抽取工具，元数据，接见工具，数据市集，数据库房管理，信息公布系统

2、数据发掘技术对聚类解析的要求有哪几个方面？

P131

可伸缩性；办理不同种类属性的能力；发现随意形状聚类的能力；减小对先验知识和用户自定义参数的依靠性；办理噪声数据的能力；可解说性和适用性3、数据库房在储存和管理方面的特色与重点技术？

数据库房面对的是大量数据的储存与管理

并行办理

针对决议支持查问的优化

支持多维解析的查问模式

4、常有的聚类算法能够分为几类？

P132

鉴于区分的聚类算法，鉴于层次的聚类算法，鉴于密度的聚类算法，鉴于网格的聚类算法，鉴于模型的聚类算法等。

5、一个典型的数据库房系统的构成？

P12

数据源、数据储存与管理、OLAP服务器、前端工具与应用

6、数据库房常有的储存优化方法？

P71

表的合并与簇文件；反向规范化，引入冗余；表的物理切割。

7、数据库房发展演变的5个阶段？

P20

以报表为主

以解析为主

以展望模型为主

以运转导游为主以及时数据库房、自动决议应用为主

8、ID3算法主要存在的弊端？

P116

（1）ID3算法在选择根结点和各内部结点中的分枝属性时，使用信息增益作为评论标准。

信息增益的弊端是偏向于选择取值许多的属性，在有些状况下

这种属性可能不会供给太多有价值的信息。

（2）ID3算法只好对描绘属性为失散型属性的数据集结构决议树。

9、简述数据库房ETL软件的主要功能和对产生数据的目标要求。

P30ETL软件的主要功能:

数据的抽取，数据的变换，数据的加载

对产生数据的目标要求：

详尽的、历史的、规范化的、可理解的、即时的、质量可控制的

10、简述分类器设计阶段包含的3个过程。

★

区分数据集，分类器结构，分类器测试

11、什么是数据冲洗？

P33★

数据冲洗是一种使用模式辨别和其余技术，在将原始数据变换和移到数据库房从前来升级原始数据质量的技术。

12、支持度和置信度的计算公式及数据计算（P90）

找出全部的规则XY,使支持度和置信度分别大于门限支持度：

事务中X和Y同时发生的比率,P（X?

Y）置信度：

项集X发生时，Y同时发生的条

/22

c（X

Support（XY）

{Milk,Diaper}

Beer（0.4,0.67）

Y）

Support（X）

件概率P（Y|X）

Example:

13、利用信息包图设计数据库房观点模型需要确立的三方面内容。

P57

确立指标，确立维度，确立类型

14、K-近邻分类方法的操作步骤（包含算法的输入和输出）。

P128

15、什么是技术元数据，主要包含的内容？

P29

技术元数据是描绘对于数据库房技术细节的数据，应用于开发、管理和保护

DW，包含：

DW结构的描绘,如DW的模式、视图、维、层次结构和导出数据的定义，数据市集的地点和内容等

业务系统、DW和数据市集的系统结构和模式

汇总算法。

包含胸怀和维定义算法，数据粒度、主题领域、聚合、汇总和预约义的查问和报告。

由操作型业务环境到数据库房业务环境的映照。

包含源数据和他们的内容、数据切割、数据提取、冲洗、变换规则和数据刷新规则及安全（用户受权和存取控制）

16、业务元数据主要包含的内容？

P29

业务元数据：

从业务角度描绘了DW中的数据，供给了介于使用者和实质系统之间的语义层，主要包含：

使用者的业务属于所表达的数据模型、对象名和属性名接见数据的原则和数据的根源

系统供给的解析方法及公式和报表的信息。

17、K-means算法的基本操作步骤（包含算法的输入和输出）。

P138★

4/22

18、数据从集结区加载到数据库房中的主要方法？

P36

SQL命令（如Insert或Update）

由DW供给商或第三方供给特意的加载工具由DW管理员编写自定义程序

19、多维数据模型中的基本观点：

维，维类型，维属性，粒度P37

维：

人们察看数据的特定角度，是考虑问题的一类属性，如时间维或产品维

维类型：

也称维分层。

即同一维度还能够存在细节程度不同的各个类型属性（如时间维包含年、季度、月等）

维属性：

是维的一个取值，是数据线在某维中地点的描绘。

粒度：

DW中数据综合程度高低的一个权衡。

粒度低，细节程度高，回答查问的种类多

？

20、Apriori算法的基本操作步骤P93★

Apriori使用一种称作逐层搜寻的迭代方法，K项集用于探究K+1项集。

该方法是鉴于候选的策略，降低候选数

Apriori剪枝原则：

若任何项集是非屡次的，则其超集必定是非屡次的（不用产生和测试超集）

该原则鉴于以下支持度的特征:

X,Y:

（XY）s（X）s（Y）

项集的支持度不会超出其子集

支持度的反单一特征（anti-monotone）：

假如一个会合不可以经过测试，则它的全部超集也都不可以经过同样的测试。

令k=1

产生长度为1的屡次项集

循环，直到无新的屡次项集产生

从长度为k的屡次项集产生长度为k+1的候选屡次项集

连结步：

项集的各项排序，前k-1个项同样若候选屡次子集包含长度为k的非屡次子集，则剪枝

5/22

剪枝步：

利用支持度属性原则

扫描数据库，计算每个候选屡次集的支持度

删除非屡次项,保存屡次项

什么是数据库房？

数据库房是一个面向主体的、集成的、时变的、非易失的数据会合，支持管理过程的决议过程

数据库房清除与对于决议无用的数据，供给特定主题的简洁视图。

经过集成多个异种数据源而构成

数据库房老是物理地分别寄存数据，这些数据源于操作环境下的应用数据操作性的数据更新不会发生在数据库房的环境下.

联机事务办理OLTP（on-linetransactionprocessing）

传统的关系DBMS的主要任务

他们涵盖了一个组织的大多半平时操作：

购置、库存、制造、银行、薪资、注册、记账等。

联机解析办理OLAP（on-lineanalyticalprocessing）

数据库房系统的主要任务

数据解析和决议

OLTP和OLAP的差异

用户和系统的面向性:

OLTP面向顾客，而OLAP面向市场

数据内容：

OLTP系统管理目前数据，而OLAP管理历史的数据。

数据库设计：

OLTP系统采纳实体-联系（ER）模型和面向应用的数据库设计，

而OLAP系统往常采纳星形和雪花模型

视图：

OLTP系统主要关注一个公司或部门内部的目前数据，而OLAP系统

主要关注汇总的一致的数据。

接见模式：

OLTP接见主要有短的原子事务构成，而OLAP系统的接见大多半是只读操作，只管很多可能是复杂的查问

数据库房和OLAP工具鉴于多维数据模型。

这种模型将数据看作数据立方体形式。

数据立方体赞同从多维对数据建模和察看。

它由维和事实定义。

3最流行的数据库房数据模型是多维模型，这种模型能够以星形模式、雪花型模式或事实星座模式形式存在。

成立数据库房模型：

维与胸怀

星型模型:

最常有的模型典范是星形模式，此中数据库房包含

（1）一个大的包含大量数据而且不含冗余的中心表（事实表）；

（2）一组小的隶属表（维表），每维一个。

中间是事实表，连结一组维表

雪花模式:

雪花模式是星型模式的变种，此中某些维表是规范化的，而数据进一步分解到附带的维表中，它的图形近似于雪花的形状

事实星座表:

多个事实表共享维表，这种模式能够看作星型模式及，所以称为星系模式或事实星座

数据立方体胸怀是一个数值函数，能够对数据立方体空间的每一个点求值。

经过对给定点的各维-值对齐集数据，计算该点的胸怀值。

胸怀能够依据所用的齐集函数种类能够分红三类（即散布的、代数的和整体的）。

观点分层定义一个映照序列，将低层观点映照到更一般的较高层观点。

6/22

多维数据模型中的OLAP操作

（1）上卷：

上卷操作经过沿一个维的观点分层向上爬升或许经过维规约，对数据立方体进行齐集；

（2）下钻：

下钻是上卷的逆操作，它由不太详尽的数据到更详尽的数据。

下钻能够经过沿维的观点分层向下或引入附带的维来实现；

（3）切片和切块：

切片操作对给定立方体的一个维进行选择，致使一个子立方体。

切块操作经过对两个或多个维履行选择，定义子立方体；

（4）转轴（旋转）：

转轴是一种可视化操作，它转动数据的视角，供给数据的代替表示；

（5）其余OLAP操作：

钻过履行波及多个事实表的查问；钻透操作使用关系SQL体制，钻透数据立方体的基层，到后段关系表。

三层数据库房的系统结构

（1）基层是库房数据服务器，它几乎老是关系数据库系统。

（2）中间层是OLAP服务器，其典型的实现或许是（i）关系OLAP（ROLAP）模型,即扩大的关系DBMS，它将对多维数据的操作映照为标准的关系操作；或许是（ii）多维OLAP（MOLAP）模型即特意的服务器，它直接实现多维数据和操作。

（3）顶层是前段客户层，它包含查问和报表工具、解析工具和/或数据发掘工具（比如趋向解析、展望等）。

从结构的角度看，有三种数据库房模型：

公司库房、数据市集和虚构库房。

数据市集（DataMart）：

数据市集包含公司范围数据的一个子集，对于特定的用户群是实用的。

其范围限于选定的主题。

依据数据的根源不同，数据市集分为独立的和依靠的两类。

数据库房后端工具和适用程序包含以下功能：

数据提取；数据清理；数据变换；装入；刷新。

数据立方体的物化有三种选择：

（1）不物化；

（2）完好物化；（3）部分物化。

有三种数据库房应用：

信息办理、解析办理和数据发掘。

分类和展望

找出描绘并区分数据类和观点的模型（或函数）以便能够使用模型展望类标志未知的对象类。

比如：

依照天气区分国家种类或许依照每里的耗油量区分汽车种类。

表示形式：

判断树，分类规则，神经网络。

展望：

展望某些未知的或空缺的数据值。

聚类解析

类标志未知：

把数据聚类或分构成新的类，比如：

把房屋聚类来找出房屋的散布模式。

聚类依照以下原则：

最大化类内的相像性和最小化类间的相像性。

FP-树结构的长处

完好性:

不会损坏任何交易的长模式为屡次模式发掘保存了完好的信息简短性减少了不有关的信息—非屡次项集被删掉

屡次项集按支持度递减次序摆列:

越是屡次的项集越有可能被共享

7/22

不会比原数据库大（假如不算节点链和计数）

基本思想（分治策略）：

使用FP-树循环的产生屡次模式路径

方法对于每一个项,先结构它的条件模式基,而后结构它的条件FP-树在每一个新创立的条件FP-树上重复此过程

直到结果FP树为空,或它只包含一条路径（单路径将产生全部的它的子路径的联合,每一便条路径都是一个屡次模式）

发掘FP-树的主要步骤

1）为FP-树中的每一个节点结构条件模式基

2）为每一个条件模式基条件FP-树

3）循环的发掘条件FP-树，生成到现在为止获取的屡次模式假如条件FP-树只包含单条路径，简单的列举全部的模式

一、名词解说

1.数据库房：

是一种新的数据办理系统结构，是面向主题的、集成的、不行更新的（稳固性）、随时间不停变化（不同时间）的数据会合，为公司决议支持系统供给所需的集成信息。

2.孤立点：

指数据库中包含的一些与数据的一般行为或模型不一致的异样数据。

3.OLAP：

OLAP是在OLTP的基础上发展起来的，以数据库房为基础的数据解析办理，是共享多维信息的迅速解析，是被特意设计用于支持复杂的解析操作，重视对解析人员和高层管理人员的决议支持。

4.粒度：

指数据库房的数据单位中保存数据细化或综合程度的级别。

粒度影响寄存在数据库房中的数据量的大小，同时影响数据库房所能回答查问问题的细节程度。

5.数据规范化：

指将数据按比率缩放（如改换大单位），使之落入一个特定的地区（如0－1）以提升数据发掘效率的方法。

规范化的常用方法有：

最大－最小规范化、零－均值规范化、小数定标规范化。

6.关系知识：

是反应一个事件和其余事件之间依靠或互相关系的知识。

假如两项或多项属性之间存在关系，那么此中一项的属性值就能够依照其余属性值进行展望。

7.数据发掘：

从大量的、不完好的、有噪声的、模糊的、随机的数据中，提取隐含在此中的、人们早先不知道的、但又是潜伏实用的信息和知识的过程。

8.OLTP：

OLTP为联机事务办理的缩写，OLAP是联机解析办理的缩写。

前者是以数据库为基础的，面对的是操作人员和低层管理人员，对基本数据进行查问和增、删、改等办理。

8/22

9.ROLAP：

是鉴于关系数据库储存方式的，在这种结构中，多维数据被映像成二维关系表，往常采纳星型或雪花型架构，由一个事实表和多个维度表构成。

10.MOLAP：

是鉴于近似于“超立方”块的OLAP储存结构，由很多经压缩的、近似于多维数组的对象构成，并带有高度压缩的索引及指针结构，经过直接偏移计算进行存取。

11.数据归约：

减小数据的取值范围，使其更合适于数据发掘算法的需要，而且能够获取和原始数据同样的解析结果。

12.广义知识：

经过对大量数据的归纳、归纳和抽象，提炼出带有广泛性的、归纳性的描绘统计的知识。

13.展望型知识：

是依据时间序列型数据，由历史的和目前的数据去推断将来的数据，也能够认为是以时间为重点属性的关系知识。

14.偏差型知识：

是对差异和极端特例的描绘，用于揭露事物偏离惯例的异样现象，如标准类外的特例，数据聚类外的离群值等。

15.遗传算法：

是一种优化搜寻算法，它第一产生一个初始可行解集体，而后对这个集体经过模拟生物进化的选择、交错、变异等遗传操作遗传到下一代集体，并最后达到全局最优。

16.聚类：

是将物理或抽象对象的会合分构成为多个类或簇（cluster）的过程，

使得在同一个簇中的对象之间拥有较高的相像度，而不同簇中的对象差异

较大。

17.决议树：

是用样本的属性作为结点，用属性的取值作为分支的树结构。

它是分类规则发掘的典型方法，可用于对新样本进行分类。

18.相异度矩阵：

是聚类解析顶用于表示各对象之间相异度的一种矩阵，n个

对象的相异度矩阵是一个nn维的单模矩阵，其对角线元素均为0，对角线双侧元素的值同样。

19.屡次项集：

指知足最小支持度的项集，是发掘关系规则的基本条件之一。

20.支持度：

规则A→B的支持度指的是全部事件中A与B同地发生的的概率，即P（A∪B），是AB同时发生的次数与事件总次数之比。

支持度是对关系规则重要性的权衡。

21.可信度：

规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P（B|A），是AB同时发生的次数与A发生的全部次数之比。

可信度是对关系规则的正确度的权衡。

22.关系规则：

同时知足最小支持度阈值和最小可信度阈值的规则称之为关系规则。

二、综合题

9/22

1.何谓数据发掘？

它有哪些方面的功能？

从大量的、不完好的、有噪声的、模糊的、随机的数据中，提取隐含

在此中的、人们早先不知道的、但又是潜伏实用的信息和知识的过程称为数据发掘。

有关的名称有知识发现、数据解析、数据交融、决议支持等。

数据发掘的功能包含：

观点描绘、关系解析、分类与展望、聚类解析、趋向解析、孤立点解析以及偏差解析等。

2.何谓数据库房？

为何要成立数据库房？

数据库房是一种新的数据办理系统结构，是面向主题的、集成的、不

可更新的（稳固性）、随时间不停变化（不同时间）的数据会合，为公司决议支持系统供给所需的集成信息。

成立数据库房的目的有3个：

一是为认识决公司决议解析中的系统响应问题，数据库房能供给比传统事务数据库更快的大规模决议解析的响应速度。

二是解决决议解析对数据的特别需求问题。

决议解析需要全面的、正确的集成数据，这是传统事务数据库不可以直接供给的。

三是解决决议解析对数据的特别操作要求。

决议解析是面向专业用户而非一般业务员，需要使用专业的解析工具，对解析结果还要以商业智能的方式进行表现，这是事务数据库不可以供给的。

3.列举操作型数据与解析型数据的主要差异。

操作型数据解析型数据

目前的、细节的历史的、综合的

面向应用、事务驱动面向解析、解析驱动

屡次增、删、改几乎不更新，按期追加

操作需求早先知道解析需求早先不知道

生命周期切合SDLC完好不同的生命周期

对性能要求高对性能要求宽松

一次操作数据量小一次操作数据量大

支持平时事务操作支持管理决议需求

4.何谓OLTP和OLAP？

它们的主要异同有哪些？

OLTP即联机事务办理，是以传统数据库为基础、面向操作人员和低层

管理人员、对基本数据进行查问和增、删、改等的平时事务办理。

OLAP即联机解析办理，是在OLTP基础上发展起来的、以数据库房基础上的、

面向高层管理人员和专业解析人员、为公司决议支持服务。

OLTP和OLAP的主要差异以下表：

OLTPOLAP

数据库数据数据库或数据库房数据

10/22

细节性数据综合性数据

目前数据历史数据

常常更新不更新，但周期性刷新

一次性办理的数据量小一次办理的数据量大

对响应时间要求高响应时间合理

用户数目大用户数据相对较少

面向操作人员，支持平时操作面向决议人

展开阅读全文