商务智能复习题Word格式文档下载.doc

资源描述

商务智能复习题Word格式文档下载.doc

《商务智能复习题Word格式文档下载.doc》由会员分享，可在线阅读，更多相关《商务智能复习题Word格式文档下载.doc（14页珍藏版）》请在冰点文库上搜索。

商务智能复习题Word格式文档下载.doc

（2）（3）（4）

（1）

（2）（3）（4）

（1）

（2）（3）（4）（5）

7.关于OLAP和OLTP的区别描述，不正确的是：

（C）

A.OLAP主要是关于如何理解聚集的大量不同的数据，它与OTAP应用程序不同。

B.与OLAP应用程序不同，OLTP应用程序包含大量相对简单的事务.

C.OLAP的特点在于事务量大，但事务内容比较简单且重复率高.

D.OLAP是以数据仓库为基础的，但其最终数据来源与OLTP一样均来自底层的数据库系统，两者面对的用户是相同的。

8.关于OLAP和OLTP的说法，下列不正确的是：

（A）

A.OLAP事务量大，但事务内容比较简单且重复率高

B.OLAP的最终数据来源与OLTP不一样

C.OLTP面对的是决策人员和高层管理人员

D.OLTP以应用为核心,是应用驱动的

9.OLAP技术的核心是（D）。

A.在线性

B.对用户的快速响应

C.互操作性

D.多维分析

10．某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？

（A）

A.关联规则B.聚类

C.分类D.自然语言处理

11.分析型CRM的（C）功能可以让CRM对所进行的销售活动相关信息进行存储和管理，将客户所发生的交易与互动事件转化为有意义、高获利的销售商机。

A.促销管理B.个性化和标准化C.客户分析和建模D.客户沟通

12.运用关键绩效指标法设计组织关键绩效指标依次经过以下几个步骤（A）。

A.确定关键成功领域、确定关键绩效要素、确定关键绩效指标

B.计划目标、实施目标、评价结果、反馈

C.确定目标、比较目标、收集分析数据、系统学习与改进、评价和提高

D.确定长期整体目标、确定短期目标

13．什么是KDD？

（A）

A.知识发现B.领域知识发现

C.文档知识发现D.动态知识发现

14.呼叫中心是一种基于（D）的一种新的综合信息服务系统。

AIT技术BCTI技术CWEB技术DCRM技术

15.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？

（C ）

A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘

16.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？

（ B）

A.分类B.聚类C.关联分析D.隐马尔可夫链

17.使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？

（A ）

A.探索性数据分析B.建模描述

C.预测建模D.寻找模式和规则

18.为数据的总体分布建模，把多维空间划分成组等问题属于数据挖掘的哪一类任务？

（ B）

19.建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？

（ C ）

A.根据内容检索B.建模描述

20.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？

（A）

C.预测建模D.寻找模式和规则

21.下面哪种不属于数据预处理的方法？

（ D ）

A.变量代换B.离散化C.聚集D.估计遗漏值

22.下面哪个不属于数据的属性类型（ D ）。

A.标称B.序数C.区间D.相异

23.在上题中，属于定量的属性类型是（ C ）。

24.只有非零值才重要的二元属性被称作（C ）。

A.计数属性B.离散属性C.非对称的二元属性D.对称属性

25.以下哪种方法不属于特征选择的标准方法（D）。

A.嵌入B.过滤C.包装D.抽样

26.下面不属于创建新属性的相关方法的是（C）。

A.特征提取B.特征修改C.映射数据到新的空间D.特征构造

27.下面哪个属于映射数据到新的空间的方法？

（ A ）

A.傅立叶变换B.特征加权C.渐进抽样D.维归约

28.企业所建立的预测模型的好坏取决于模型在（A）上的表现效果。

A.得分集B.训练集C.测试集D.评价集

29.客户在经济活动中具有多重身份，下面哪一种不是其身份之一（C）。

A.行为身份B.所有权身份C.学习身份D.决策身份

30.下列四条描述中，正确的一条是（B）。

A.企业实施数据挖掘，必须要有数据仓库。

B.企业要实施数据挖掘最好的方式是请编外专家。

C.企业购买现成数据挖掘模型的一个先决条件是：

该企业的产品、客户、市场定位和所买来的现成模型设计之初的假设相吻合。

D.在建模的时侯，增益最高的模型就是最好的模型。

31.数据挖掘算法以（D）形式来组织数据。

A.行B.列C.记录D.表格

32.企业要建立预测模型，需准备建模数据集，以下四条描述建模数据集正确的是（B）。

A.数据越多越好。

B.尽可能多的适合的数据。

C.得分集数据是建模集数据的一部分。

D.以上三条都正确。

33.K—均值类别侦测要求输入的数据类型必须是（B）。

A.整型B.数值型C.字符型D.逻辑型

34.在决策树和累计增益图的关系转化过程图中，决策树上某一页节点的增益与累计增益图上的（D）相对应。

A.线段长度 B.线段斜率C.相对应的线段长度D.相对应的线段斜率

35.企业为提升每个客户的价值，应实现（C）最优化。

A.促销活动 B.预算最优化 C.客户最优化D.三者都不是

36.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（C）数据挖掘方法。

A.分类B.预测 C.组合或关联法则 D.聚类

37.企业成功实施数据挖掘，需要以下（B）知识或技术。

A.预先的规划B.对商业文体的理解 C.综合商业知识和技能D.都需要

38.下列哪个不是专门用于可视化时间空间数据的技术（B）。

A.等高线图B.饼图C.曲面图D.矢量场图

39.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是（D）。

A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样

40.设X={1，2，3}是频繁项集，则可由X产生（C）个关联规则。

A.4B.5C.6D.7

41.概念分层图是（B）图。

A.无向无环B.有向无环C.有向有环D.无向有环

42.以下哪些算法是分类算法（B）。

A.DBSCANB.C4.5C.K-MeanD.EM

43.以下哪些分类方法可以较好地避免样本的不平衡问题（A）。

A.KNNB.SVMC.BayesD.神经网络

44.以下关于人工神经网络（ANN）的描述错误的有（A）。

A.神经网络对训练数据中的噪声非常鲁棒

B.可以处理冗余特征

C.训练ANN是一个很耗时的过程

D.至少含有一个隐藏层的多层神经网络

45.通过聚集多个分类器的预测来提高分类准确率的技术称为（A）。

A.组合（ensemble）B.聚集（aggregate）C.合并（combination）D.投票（voting）

46.简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（B）。

A.层次聚类B.划分聚类C.非互斥聚类D.模糊聚类

47.在基本K均值算法里，当邻近度函数采用（A）的时候，合适的质心是簇中各点的中位数。

A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度

48.（C）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

A.边界点B.质心C.离群点D.核心点

48.检测一元正态分布中的离群点，属于异常检测中的基于（A）的离群点检测。

A.统计方法B.邻近度C.密度D.聚类技术

49.DBSCAN在最坏情况下的时间复杂度是（B）。

A.O（m）B.O（m2）C.O（logm）D.O（m*logm）

50.关于K均值和DBSCAN的比较，以下说法不正确的是（A）。

A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念。

C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇。

D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。

51.使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？

（A）

A.探索性数据分析B.建模描述

C.预测建模D.寻找模式和规则

52.下面哪种不属于数据预处理的方法？

（D）

A变量代换B离散化C聚集D估计遗漏值

二、判断题（本题共10道小题，每小题1分，共10分）

（T）1．商务智能指收集、转换、分析和发布数据的过程，目的是为了更好的决策。

（F）2．数据分析是整合企业原始数据的第一步，包括数据抽取、转换和装载三个过程。

（T）3．维是人们观察数据的特定角度，是考虑问题时的一类属性。

（F）4．独立的数据集市架构的优点是企业内数据一致，不会产生信息孤岛。

（T）5.星型模型的核心是事实表，事实表把各种不同的维表连接起来。

（F）6．企业风险分析是通过对企业的经营成本进行综合评价，拟定一个企业成本的临界值。

（T）7．衡量客户忠诚的唯一尺度就是客户是否重复或持久地购买企业的产品或者服务。

（T）8．在BI中，DW是前提和基础，负责统一数据规则的处理和存储。

（F）9．客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。

（F）10.平衡计分卡共包括三个层面，分别是财务层面、客户层面、内部业务流程层面。

（T）11．数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

（F）12．在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

（F）13．OLAP是用来协助企业对响应事件或事务的日常商务活动进行处理。

（T）14．数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持管理决策的过程。

（T）15.数据预处理是整合企业原始数据的第一步，包括数据抽取、转换和装载三个过程。

（F）16．C4.5决策树算法是国际上最早、最有影响力的决策树算法，

（T）17．平衡计分卡是从财务、客户、内部运营、学习与成长四个角度，将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。

（F）18．客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。

（F）19.企业绩效管理的目的在于进一步加强成本的事前控制，同时有助于通过盈亏分析，辅助产品科学的报价。

20.数据仓库的数据量越大，其应用价值也越大。

21.啤酒与尿布的故事是聚类分析的典型实例。

22.等深分箱法使每个箱子的记录个数相同。

23.数据仓库“粒度”越细，记录数越少。

24.数据立方体由3维构成，Z轴表示事实数据。

25.决策树方法通常用于关联规则挖掘。

26.ID3算法是决策树方法的早期代表。

27.C4.5是一种典型的关联规则挖掘算法。

28.回归分析通常用于挖掘关联规则。

29.人工神经网络特别适合解决多参数大复杂度问题。

30.概念关系分析是文本挖掘所独有的。

31.可信度是对关联规则的准确度的衡量。

32.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。

33.SQLServer2005不提供关联规则挖掘算法。

34.决策树方法特别适合于处理数值型数据。

35.数据仓库的数据为历史数据，从来不需要更新。

36.数据立方体是广义知识发现的方法和技术之一。

37.数据立方体的其中一维用于记录事实数据。

38.数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘。

（T）

39.图挖掘技术在社会网络分析中扮演了重要的角色。

（T）

40.模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；

模型则对变量变化空间的一个有限区域做出描述。

（F）

41.寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。

（F）

42.离群点可以是合法的数据对象或者值。

　　　　（T）

43.离散属性总是具有有限个值。

　　　　　　　　（F）

44.噪声和伪像是数据错误这一相同表述的两种叫法。

　　　　　（F）

45.用于分类的离散化方法之间的根本区别在于是否使用类信息。

　　　（T）

46.特征提取技术并不依赖于特定的领域。

　　　　　　（F）

47.可信度是对关联规则的准确度的衡量。

48.定量属性可以是整数值或者是连续值。

　　　　　（T）

49.可视化技术对于分析的数据类型通常不是专用性的。

　　　　（T）

50.DSS主要是基于数据仓库、联机数据分析和数据挖掘技术的应用。

（F）

51.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息，是继数据库技术发展之后迅猛发展起来的一种新技术。

（T）

52.商业智能系统与一般交易系统之间在系统设计上的主要区别在于：

后者把结构强加于商务之上，一旦系统设计完毕，其程序和规则不会轻易改变；

而前者则是一个学习型系统，能自动适应商务不断变化的要求。

（T）

53.数据仓库中间层OLAP服务器只能采用关系型OLAP。

（F）

54．数据仓库系统的组成部分包括数据仓库、仓库管理、数据抽取、分析工具等四个部分。

（F）

55.Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。

56.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

57.聚类（clustering）是这样的过程：

它找出描述并区分数据类或概念的模型（或函数），以便能够使用模型预测类标记未知的对象类。

（F）

58.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

59.对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。

（T）

60.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。

（F）

三、名词解释（本题共4道小题，每小题5分，共20分）

1.商务智能

商务智能是融合了先进信息技术与创新管理理念的结合体，集成企业内外数据，进行加工并从中提取能够创造商业价值的知识，面向企业战略并服务于管理层、业务层，指导企业经营决策，提升企业竞争力。

2.数据仓库

数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合，用以支持管理决策的过程。

3.数据集成

数据集成是在逻辑上或物理上把不相同来源、格式、特点的数据有机地整合，从而为企业提供全面的数据共享。

4.OLAP（联机分析处理）

OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。

5.数据挖掘

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取正确的、有用的、未知的、综合的以及人们感兴趣的知识并用于决策支持的过程。

6.孤立点：

指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。

7.数据规范化：

指将数据按比例缩放（如更换大单位），使之落入一个特定的区域（如0－1）以提高数据挖掘效率的方法。

规范化的常用方法有：

最大－最小规范化、零－均值规范化、小数定标规范化。

8.聚类：

是将物理或抽象对象的集合分组成为多个类或簇（cluster）的过程，使得在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。

9.ROLAP：

是基于关系数据库存储方式的，在这种结构中，多维数据被映像成二维关系表，通常采用星型或雪花型架构，由一个事实表和多个维度表构成。

10.数据归约：

缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。

11.预测型知识：

是根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。

12.决策树：

是用样本的属性作为结点，用属性的取值作为分支的树结构。

它是分类规则挖掘的典型方法，可用于对新样本进行分类。

13.遗传算法：

是一种优化搜索算法，它首先产生一个初始可行解群体，然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体，并最终达到全局最优。

14.知识管理：

知识管理就是对一个企业集体的知识与技能的捕获，是为增强组织的绩效而创造、获取和使用知识的过程（知识的创造、储存、分享、应用和更新）。

15.Web挖掘：

Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程：

C→P。

四、简答题（本题共5道小题，每小题6分，共30分）

1．实现商务智能的四个阶段是什么？

答：

实现商务智能的四个阶段是数据预处理、建立数据仓库、数据分析及数据展现。

（2分）

数据预处理是整合企业原始数据的第一步，包括数据抽取、转换和装载三个过程;

（1分）

数据仓库则是处理海量数据的基础;

数据分析是体现系统智能的关键，一般采用OLAP和DM两大技术。

（1分）

数据展现则主要保障系统分析结果的可视化。

2.数据库系统的局限性

①数据库适于存储高度结构化的日常事务细节数据。

决策分析型数据是多维性，分析内容复杂。

②在决策分析环境中，如果事务处理的细节数据量太大一方面会严重影响分析效率，另一方面这些细节数据会分散决策者的注意力。

③当事务型处理环境和分析型处理环境在同一个数据库系统中，事务型处理对数据的存取操作频率高，操作处理的时间短，而分析型处理可能需要连续运行几个小时，从而消耗大量的系统资源。

④决策型分析数据的数据量大，这些数据有来自企业内部的，也有来自企业外部的。

来自企业外部的数据又可能来自不同的数据库系统，在分析时如果直接对这些数据操作会造成分析的混乱。

对于外部数据中的一些非结构化数据，数据库系统常常是无能为力。

3．数据仓库与数据集市的区别是什么？

数据仓库收集了关于整个组织的主题信息，因此是企业范围的。

对于数据仓库，通常使用星座模式，因为它能对多个相关的主题建模；

（3分）

数据集市是数据仓库的一个部门子集，它针对选定的

展开阅读全文