知识发现与数据开采试题及答案.docx

资源描述

知识发现与数据开采试题及答案.docx

《知识发现与数据开采试题及答案.docx》由会员分享，可在线阅读，更多相关《知识发现与数据开采试题及答案.docx（17页珍藏版）》请在冰点文库上搜索。

知识发现与数据开采试题及答案.docx

1.什么叫数据挖掘？

数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的

非平凡过程。

数据挖掘是一种决策支持过程。

2.数据挖掘一般有哪些步骤？

从数据本身来考虑，数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、

数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。

步骤

（1）信息收集：

根据确定的数据分析对象，抽象出在数据分析中所需要的特征信

息，然后选择合适的信息收集方法，将收集到的信息存入数据库。

对于海量数据，选择一个合适的数据存储和管理的数据仓库是至关重要的。

步骤

（2）数据集成：

把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集

中，从而为企业提供全面的数据共享。

步骤（3）数据规约：

如果执行多数的数据挖掘算法，即使是在少量数据上也需要很长

的时间，而做商业运营数据挖掘时数据量往往非常大。

数据规约技术可以用来得到数据集的规约表示，它小得多，但仍然接近于保持原数据的完整性，并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

步骤（4）数据清理：

在数据库中的数据有一些是不完整的（有些感兴趣的属性缺少属

性值）、含噪声的（包含错误的属性值），并且是不一致的（同样的信息不同的表示方式），因此需要进行数据清理，将完整、正确、一致的数据信息存入数据仓库中。

不然，挖掘的结果会差强人意。

步骤（5）数据变换：

通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数

据挖掘的形式。

对于有些实数型数据，通过概念分层和数据的离散化来转换数据也是重要的一步。

步骤（6）数据挖掘过程：

根据数据仓库中的数据信息，选择合适的分析工具，应用统

计方法、事例推理、决策树、规则推理、模糊集，甚至神经网络、遗传算法的方法处理信息，得出有用的分析信息。

步骤（7）模式评估：

从商业角度，由行业专家来验证数据挖掘结果的正确性。

步骤（8）知识表示：

将数据挖掘所得到的分析信息以可视化的方式呈现给用户，或作

为新的知识存放在知识库中，供其他应用程序使用。

3.数据挖掘的功能大致有哪些？

（1）自动预测趋势和行为

　　数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题，如今可以迅速直接由数据本身得出结论。

一个典型的例子是市场预测问题，数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户，其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

（2）关联分析

　　数据关联，是数据库中存在的一类重要的可被发现的知识。

若两个或多个变量的取值之间存在某种规律性，就称为关联。

关联可分为简单关联、时序关联、因果关联。

关联分析的目的是找出数据库中隐藏的关联网。

有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

（3）聚类

　　数据库中的记录可被化分为一系列有意义的子集，即聚类。

聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。

聚类技术主要包括传统的模式识别方法和数学分类学。

80年代初，Mchalski提出了概念聚类技术牞其要点是，在划分对象时不仅考虑对象之间的距离，还要求划分出的类具有某种内涵描述，从而避免了传统技术的某些片面性。

　（4）概念描述

　　概念描述，就是对某类对象的内涵进行描述，并概括这类对象的有关特征。

概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。

生成一个类的特征性描述只涉及该类对象中所有对象的共性。

生成区别性描述的方法很多，如决策树方法、遗传算法等。

　（5）偏差检测

数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。

偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。

偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。

4.什么叫孤立点（outlier）?

在数学上是指坐标满足曲线方程，但并不落在曲线上的点。

孤立点也可以指是在数据集合中与大多数数据的特征或不一致的数据。

5.什么叫数据仓库？

数据仓库（DataWarehouse）是一个面向主题的（SubjectOriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（TimeVariant）的数据集合，用于支持管理决策（DecisionMakingSupport）。

数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。

它是单个数据存储，出于分析性报告和决策支持的目的而创建。

为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。

6.为什么数据仓库的数据是非挥发的？

因为数据仓库是一个物理上独立的存储结构（存储着转换自操作系统的数据）。

数据更新的操作不在数据仓库环境下进行。

（1）不需要事务处理，恢复，和并发控制机制

（2）在数据访问中只需要两种操作：

数据的初始化和访问。

7.什么叫OLTP？

什么叫OLAP？

它们有何区别？

On-LineTransactionProcessing联机事务处理系统（OLTP）。

也称为面向交易的处理系统，其基本特征是顾客的原始数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果。

联机分析处理（on一lineanalyticalprocessing,OLAP）.是数据仓库系统最主要的应用，专门设计用于支持复杂的分析操作，侧重对决策人员和高层管理人员的决策支持，可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理，并且以一种直观而易懂的形式将查询结果提供给决策人员，以便他们准确掌握企业（公司）的经营状况，了解对象的需求，制定正确的方案。

两者的区别如下表：

OLTP

OLAP

用户

操作人员,低层管理人员

决策人员,高级管理人员

功能

日常操作处理

分析决策

DB设计

面向应用

面向主题

数据

当前的,最新的细节的,二维的分立的

历史的,聚集的,多维的集成的,统一的

存取

读/写数十条记录

读上百万条记录

工作单位

简单的事务

复杂的查询

用户数

上千个

上百万个

DB大小

100MB-GB

100GB-TB

时间要求

具有实时性

对时间的要求不严格

主要应用

数据库

数据仓库

8.多维数据仓库的事实表的用途是什么？

每个数据仓库都包含一个或者多个事实数据表。

事实数据表可能包含业务销售数据，如

现金登记事务所产生的数据，事实数据表通常包含大量的行。

事实数据表的主要特点是包含数字数据（事实），并且这些数字信息可以汇总，以提供有关单位作为历史的数据，每个事实数据表包含一个由多个部分组成的索引，该索引包含作为外键的相关性维度表的主键，而维度表包含事实记录的特性。

事实数据表不应该包含描述性的信息，也不应该包含除数字度量字段及使事实与维度表中对应项的相关索引字段之外的任何数据。

包含在事实数据表中的“度量值”有两种：

一种是可以累计的度量值，另一种是非累计的度量值。

最有用的度量值是可累计的度量值，其累计起来的数字是非常有意义的。

用户可以通过累计度量值获得汇总信息，例如。

可以汇总具体时间段内一组商店的特定商品的销售情况。

非累计的度量值也可以用于事实数据表，单汇总结果一般是没有意义的，例如，在一座大厦的不同位置测量温度时，如果将大厦中所有不同位置的温度累加是没有意义的，但是求平均值是有意义的。

一般来说，一个事实数据表都要和一个或多个维度表相关联，用户在利用事实数据表创建多维数据集时，可以使用一个或多个维度表。

9.什么叫雪花模式？

什么叫事实星座模式？

一个雪花模式是一个合乎逻辑的安排表中的多维数据库，这样的实体关系图类似于

花的形状。

雪花模式是集中代表事实表的连接到多个层面。

雪花模式是类似星型模式。

然而，在雪花架构，尺寸归到多个相关的表，而星型模式的尺寸非标准化，每个维度表由一个单一的。

形状复杂的雪花出现时，雪花模式的详细尺寸，并具有多层次的关系，并有多个子表的父表的效果只会影响维度表而不是事实表。

一种常见的数据仓库的概念模型。

这种模型往往应用于数据关系比星型模型和雪花模型更复杂的场合。

事实星座模型需要多个事实表共享维度表，因而可以视为星形模型的集合，故亦被称为星系模型。

10.雪花模式与星形模式各有哪些有缺点？

雪花型结构是一种正规化结构，他取除了数据仓库中的冗余数据。

比如有一张销售事

实表，然后有一张产品维度表与之相连，然后有一张产品类别维度表与产品维度表连。

这种结构就是雪花型结构。

雪花型结构取除了数据冗余，所以有些统计就需要做连接才能产生，所以效率不一定有星型架构高。

正规化也是一种比较复杂的过程，相应数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。

雪花模式比较复杂，用户不容易理解;浏览内容相对困难;额外的连接将使查询性能下降。

星型架构是一种非正规化的结构，多维数据集中的每一个维度都与事实表相连接，不存在渐变维度，所以数据有一定的冗余，正因为数据的冗余所以很多统计查询不需要做外部的连接所以一般情况下效率比雪花型要高。

星型结构不用考虑很多正规化的因素，设计与实现都比较简单。

11.举例说明什么是分布式函数？

什么是代数函数？

什么是全息函数？

分布的（distributive）：

将函数用于n个聚集值得到的结果和将函数用于所有数

据得到的结果一样。

比如：

count（），sum（），min（），max（）等

代数的（algebraic）：

函数可以由一个带M个参数的代数函数计算（M为有界

整数），而每个参数值都可以有一个分布的聚集函数求得。

比如：

avg（），min_N（），standard_deviation（）

整体的（holistic）：

描述函数的子聚集所需的存储没有一个常数界。

比如：

median（），mode（），rank（）

12、维的概念层次可为数据库的哪些操作提供支撑？

上卷（roll-up）:

汇总数据

（1）通过一个维的概念分层向上攀升或者通过维规约

（2）当用维归约进行上卷时，一个或多个维由给定的数据立方体删除

下钻（drill-down）：

上卷的逆操作

由不太详细的数据到更详细的数据，可以通过沿维的概念分层向下或引入新的维来实现（为给定数据添加更多细节）

切片和切块（sliceanddice）

切片操作在给定的数据立方体的一个维上进行选择，导致一个子方

切块操作通过对两个或多个维进行选择，定义子方

转轴（pivot）

立方体的重定位，可视化，或将一个3维立方体转化为一个2维平面序列

转轴是一种可视化操作，通过转动当前数据的视图来提供一个数据的替代表示

钻过（drill_across）：

执行涉及多个事实表的查询

钻透（drill_through）：

使用关系SQL机制，钻到数据立方体的底层，到后端关系表

其他OLAP操作可能包括列出表中最高或最低的N项，以及计算移动平均值、增长率、利润、统计函数等等

13、什么叫企业级数据仓库？

什么叫部门级数据仓库？

什么叫虚拟数据仓库？

企业仓库：

搜集关于跨越整个组织的主题的所有信息

数据集市：

企业范围数据的一个子集，对于特定的客户是有用的。

其范围限于选定的主题，比如一个商场的数据集市

虚拟仓库：

操作数据库上的一系列视图，只有一些可能的汇总视图被物化（先计算出来，小部分）。

14、数据立方体的计算有哪些优化策略？

基于ROLAP的方体计算（Agarwaletal’96）

基于数组的算法（MOLAP）（Zhaoetal’97）

自底向上的计算方法（Beyer&Ramarkrishnan’99）

H-cubing技术（Han,pei,dong&wang:

SIGMOD’01

15、什么叫数据清洗？

数据清理：

填写空缺的值，平滑噪声数据，识别、删除孤立点，解决不一致性。

16、什么叫OLAM？

与OLAP有什么区别？

联机分析挖掘OLAM（on一lineanalyticalmining）是OLAP与数据挖掘相结合的产物。

它融合和OLAP和数据挖掘两者的优点，即体现了OLAP的对用户请求的快速响应，交互式操作和多维分析，又体现了数据挖掘分析数据的深入和分析过程的自动化。

与OLAP相比由于融合了数据挖掘技术，因此在数据分析时更加深入，并可实现分析过程的自动化。

17、挖掘前为什么要进行数据预处理？

1不完整的：

有些感兴趣的属性缺少属性值，或仅包含聚集数据

2含噪声的：

包含错误或者“孤立点”

3不一致的：

在编码或者命名上存在差异

4没有高质量的数据，就没有高质量的挖掘结果

5高质量的决策必须依赖高质量的数据

6数据仓库需要对高质量的数据进行一致地集成

18、如何处理丢失的非类别特征的数据？

1忽略元组：

当类标号缺少时通常这么做（假定挖掘任务涉及分类或描述），当每个属性缺少值的百分比变化很大时，它的效果非常差。

2人工填写空缺值：

工作量大，可行性低

3使用一个全局变量填充空缺值：

比如使用unknown或-∞

4使用属性的平均值填充空缺值

5使用与给定元组属同一类的所有样本的平均值

6使用最可能的值填充空缺值：

使用像Bayesian公式或判定树这样的基于推断的方法

19、如何处理噪声数据？

分箱（binning）:

（1）首先排序数据，并将他们分到等深的箱中

（2）然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等

聚类：

监测并且去除孤立点

计算机和人工检查结合：

计算机检测可疑数据，然后对它们进行人工判断

回归：

通过让数据适应回归函数来平滑数据

20、什么叫数据的模式集成？

模式集成：

（1）整合不同数据源中的元数据

（2）实体识别问题：

匹配来自不同数据源的现实世界的实体。

21、数据转换（datatransformation）通常采用哪些方法完成?

平滑：

去除数据中的噪声（分箱、聚类、回归）

聚集：

汇总，数据立方体的构建

数据概化：

沿概念分层向上概化

规范化：

将数据按比例缩放，使之落入一个小的特定区间

（1）最小－最大规范化

（2）z-score规范化

（3）小数定标规范化

属性构造：

通过现有属性构造新的属性，并添加到属性集中；以增加对高维数据的结构的理解和精确度

22、为什么要进行特征选择？

1获取某些特征所需的计算量可能很大，因此倾向于选择较小的特征集

2特征间的相关性，比如特征A完全依赖于特征B，如果我们已经将特征B选入特征集，那么特征A是否还有必要选入特征集？

我认为是不必的。

3特征集越大，分类器就越复杂，其后果就是推广能力（generalizationcapability）下降。

选择较小的特征集会降低复杂度，可能会提高系统的推广能力。

LessisMore!

23、主成分（PCA）分析的作用是什么？

经过PCA分析，一个多变量的复杂问题被简化为低维空间的简单问题。

可以利用这种简化方法进行作图，形象地表示和分析复杂问题

24、有放回的采样与不放回的采样的统计学区别是什么？

有放回采样下一次采样结果不受上一次采样结果的影响（即连续两次采样的结果相互独立），而无放回采样下一次采样的结果受到上一次采样结果的影响（即连续两次采样的结果不独立）。

25、数据离散化的目的是什么？

通过将属性域划分为区间，减少给定连续属性值的个数。

区间的标号可以代替实际的数据值。

26、数据离散化有哪些方法？

分箱（binning）：

分箱技术递归的用于结果划分，可以产生概念分层。

直方图分析（histogram）：

直方图分析方法递归的应用于每一部分，可以自动产生多级概念分层。

聚类分析：

将数据划分成簇，每个簇形成同一个概念层上的一个节点，每个簇可再分成多个子簇，形成子节点。

基于熵的离散化

通过自然划分分段

27、概念描述与预测性挖掘的区别？

描述性挖掘：

以简洁概要的方式描述数据，并提供数据的有趣的一般性质。

预测性数据挖掘：

通过分析数据建立一个或一组模型，并试图预测新数据集的行为

28、什么叫属性相关性分析？

通过识别不相关或者是弱相关的属性，将它们排除在概念描述过程之外，从而确定哪些属性应当包含在类特征化和类比较中。

29、属性相关性分析有哪些度量方法？

可采用的度量包括：

信息增益、Gini索引、不确定性和相关系数。

（涉及机器学习、统计、模糊和粗糙集理论等方面的相关知识）。

30、什么叫d-weight?

什么叫t-weight?

量化区分规则使用d-weight作为兴趣度度量

qa－概化元组

Cj－目标类

qa的d-weight是初始目标类工作关系中被qa覆盖的元组数与初始目标类和对比类工作关系中被qa覆盖的总元组数的比

使用t_weight表示主概化关系中每个元组的典型性

31、什么叫关联规则？

给定：

项的集合：

I={i1,i2,...,in}

任务相关数据D是数据库事务的集合，每个事务T则是项的集合，使得

每个事务由事务标识符TID标识；

A,B为两个项集，事务T包含A当且仅当

则关联规则是如下蕴涵式：

其中并且，规则在事务集D中成立，并且具有支持度s和置信度c

32、什么叫频繁模式？

如果项集的频率大于（最小支持度×D中的事务总数），则称该项集为频繁项集

33、什么叫最大频繁模式？

什么叫闭包频繁模式？

挖掘最大的频繁模式（该模式的任何真超模式都是非频繁的）

挖掘频繁闭项集（一个项集c是频繁闭项集，如果不存在其真超集c’，使得每个包含c的事务也包含c’）

34、什么叫支持度？

什么叫可信度？

支持度s是指事务集D中包含的百分比：

置信度c是指D中包含A的事务同时也包含B的百分比

35、为什么FP-growth算法非常快？

12.Apriori准则是什么？

Apriori定律1）：

如果一个集合是频繁项集，则它的所有子集都是频繁项集。

举例：

假设一个集合{A,B}是频繁项集，即A、B同时出现在一条记录的次数大于等于最小支持度min_support，则它的子集{A},{B}出现次数必定大于等于min_support，即它的子集都是频繁项集。

Apriori定律2）：

如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。

举例：

假设集合{A}不是频繁项集，即A出现的次数小于min_support，则它的任何超集如{A,B}出现的次数必定小于min_support，因此其超集必定也不是频繁项集。

13.冰山查询与Ariori准则有什么关系？

14.关联规则的提升是用来度量什么指标的？

15.一个约束是单调的需要满足什么条件？

16.分类与预测有何区别？

分类：

预测分类标号（或离散值）

根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据

预测：

建立连续函数值模型，比如预测未知或空缺值

17.分类与聚类有何区别？

简单地说，分类（CategorizationorClassification）就是按照某种标准给对象贴标签（label），再根据标签来区分归类。

简单地说，聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。

区别是，分类是事先定义好类别，类别数不变。

分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。

聚类则没有事先预定的类别，类别数不确定。

聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成。

分类适合类别或分类体系已经确定的场合，比如按照国图分类法分类图书；聚类则适合不存在分类体系、类别数不确定的场合，一般作为某些应用的前端，比如多文档文摘、搜索引擎结果后聚类（元搜索）等。

分类的目的是学会一个分类函数或分类模型（也常常称作分类器）,该模型能把数据库中的数据项映射到给定类别中的某一个类中。

要构造分类器，需要有一个训练样本数据集作为输入。

训练集由一组数据库记录或元组构成，每个元组是一个由有关字段（又称属性或特征）值组成的特征向量，此外，训练样本还有一个类别标记。

一个具体样本的形式可表示为：

（v1,v2,...,vn;c）；其中vi表示字段值，c表示类别。

分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。

聚类（clustering）是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。

它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。

与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。

其目的旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。

聚类技术正在蓬勃发展，涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域，聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。

常见的聚类算法包括：

K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

18.什么叫有监督学习？

利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。

监督学习中在给予计算机学习样本的同时，还告诉计算各个样本所属的类别。

若所给的学习样本不带有类别信息,就是无监督学习

数据立方体计算的Pipesort算法

PipeSort算法是基于代价和排序的流水线型算法，它主要结合了“最小父母”、“缓存结果”和“批处理”三种优化方法。

该算法可以保证在计算每一个立方格图的子图时排序的代价最小，但并不能保证对于整个立方格图的排序代价最小。

因此，对于一个实际的数据立方，PipeSort算法往往生成一个代价很高的立方格图划分方案。

字符串编辑距离算法

字符串编辑距离：

是一种字符串之间相似度计算的方法。

给定两个字符串S、T，将S转换成T所需要的删除、插入、替换操作的数量就叫做S到T的编辑路径。

而最短的编辑路径就叫做字符串S和T的编辑距离。

举个例子：

S=”eeba”T=”abac”我们可以按照这样的步骤转变：

（1）将S中的第一个e变成a；

（2）删除S中的第二个e；（3）在S中最后添加一个c；那么S到T编辑路径就等于3。

当然，这种变换并不是唯一的，但如果3是所有变换中最小值的话。

那么我们就可以说S和T的编辑距离等于3了。

熵、信息增益和卡方测试计算方法

单符号离散信源熵

定义：

对于给定离散概率空间表示的信源所定义的随机变量I的数学期望为信源的信息熵，单位为比特/符号

信息增益计算：

关联规则算法

典型的算法Aprior算法

Aprior算法将发现关联规则的过程分为两个步骤：

第一步通过迭代，检索出事务数据库1中的所有频繁项集，即支持度不低于用户设定的阈值的项集；第二步利用频繁项集构造出满足用户最小信任度的规则。

其中，挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分

表中的每一行代表一次购买清单（注意你购买十盒牛奶也只计一次，即只记录某个商品的出现与否）。

数据记录的所有项的集合称为总项集，上表中的总项集S={牛奶,面包,尿布,啤酒,鸡蛋,可乐}。

关联规则就是有关联的规则，形式是这样定义的：

两个不相交的非空集合X、Y，如果有X-->Y，就说X-->Y是一条关联规则。

举个例子，在上面的表中，我们发现购买啤酒就一定会购买尿布，{啤酒}-->{尿布}就是一条关联规则。

关联规则的强度用支持度（support）和自信度（confidence）来描述，

　　支持度的定义：

support（X-->Y）=|

展开阅读全文