东财《数据挖掘概论》复习题文档格式.docx

上传人:b****6 文档编号:8541347 上传时间:2023-05-11 格式:DOCX 页数:38 大小:363.63KB
下载 相关 举报
东财《数据挖掘概论》复习题文档格式.docx_第1页
第1页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第2页
第2页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第3页
第3页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第4页
第4页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第5页
第5页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第6页
第6页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第7页
第7页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第8页
第8页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第9页
第9页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第10页
第10页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第11页
第11页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第12页
第12页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第13页
第13页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第14页
第14页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第15页
第15页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第16页
第16页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第17页
第17页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第18页
第18页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第19页
第19页 / 共38页
东财《数据挖掘概论》复习题文档格式.docx_第20页
第20页 / 共38页
亲,该文档总共38页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

东财《数据挖掘概论》复习题文档格式.docx

《东财《数据挖掘概论》复习题文档格式.docx》由会员分享,可在线阅读,更多相关《东财《数据挖掘概论》复习题文档格式.docx(38页珍藏版)》请在冰点文库上搜索。

东财《数据挖掘概论》复习题文档格式.docx

C.特征挖掘

D.预测

10.对于以下项集:

{A,B};

{A,C,D,E};

{B,C,D,F};

{A,B,C,D},{A,B,C,F}。

其中,{A,C}→{A,B,C}的置信度为()。

A.2/5

B.3/5

C.3/2

D.2/3

11.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。

A.4

B.5

C.6

D.7

C

12.KDD是指()。

A.数据挖掘与知识发现

B.领域知识发现

C.文档知识发现

D.动态知识发现

13.霍普金斯统计量的值接近0.5,表明数据分布为()。

A.均匀分布

B.高度左倾斜

C.高度右倾斜

D.不确定

14.因变量总的波动中不能通过回归模型解释的部分是()。

A.离差平方和

B.回归平方和

C.残差平方和

D.R2

15.()属于一种数据仓库技术,具有汇总、合并和聚集以及从不同的角度观察信息的能力。

A.数据清理

B.数据集成

C.联机事务处理

D.联机分析处理

16.()属性的值用固定、相等的单位测量。

A.标称

B.二元

C.区间标度

D.比率标度

17.敏感度的公式为()。

A.(TP+TN)/(P+N)

B.(FP+FN)/(P+N)

C.TP/P

D.TN/N

18.以下聚类算法不属于基于原型聚类方法的是()。

A.模糊c均值

B.EM算法

C.SOM

D.CLIQUE

19.以下选项中,不能作为判断数据挖掘模式有趣的依据是()。

A.在某种确信度上,对于新的或检验数据是有效的

B.新颖

C.潜在有用

D.不易被人理解

20.数据对象(1,2)和(3,5)之间的曼哈顿距离是()。

A.5

B.3.16

C.3

D.2

21.现实生活中,顾客倾向于先购买相机,再购买内存卡,再购买其他配件,这样的模式就是一个()模式。

A.频繁子序列

B.频繁项集

C.频繁子结构

D.频繁规则

22.假设属性income的最大最小值分别是12000元和98000元,利用最大最小规范化的方法将属性的值映射到0至1的范围内,对属性income的73600元将转化为()。

A.0.821

B.1.224

C.1.458

D.0.716

23.同时满足最小支持度阈值和最小置信度阈值的规则称为()。

A.强规则

B.弱规则

C.关联规则

D.频繁项集

24.q-分位数共有数据点()个。

A.q+1

B.q

C.q-1

D.3

25.()是找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知对象的类标号的过程。

A.回归

B.聚类

C.数据分类

D.关联规则

26.DBSCAN在最坏情况下的时间复杂度是()。

A.O(m)

B.O(m2)

C.O(logm)

D.O(m*logm)

27.()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

A.MIN(单链)

B.MAX(全链)

C.组平均

D.Ward方法

28.假设12个销售价格记录组已排序如下:

5,10,11,13,15,35,50,55,72,92,204,215,这组数据的中列数是()。

A.42.5

B.105

C.210

D.81

29.()可以用来把数据压缩到较小的区间,例如0.0到1.0。

A.数据集成

B.数据归约

C.数据变换

D.数据清理

30.()是为布尔关联规则挖掘频繁项集的原创性算法。

它逐层进行挖掘,利用先验性质:

频繁项集的所有非空子集也都是频繁的。

A.Apriori算法

B.频繁模式增长算法

C.使用垂直数据格式的算法

D.knn算法

31.C1:

2;

C2:

4,该分类的信息熵为()。

A.1

B.0

C.0.65

D.0.92

二、多项选择题(下列每小题的备选答案中,有两个或两个以上符合题意的正确答案)

1.属于分裂的层次聚类算法有()。

A.二分K均值

B.MST

C.Chameleon

D.组平均

A、B

2.对于频繁项集挖掘,已经开发了许多有效的、可伸缩的算法,由它们可以导出关联和相关规则。

这些算法可以分成()。

A.类Apriori算法

B.基于频繁模式增长的算法

D.使用水平数据格式的算法

A、B、C

3.联机分析处理的操作包括()。

A.钻取

B.上卷

C.切块

D.旋转

A、B、C、D

4.电影推荐系统是包含()的应用实例。

A.分类

C.回归

D.判别

5.数据分类是一个两阶段过程,包括()。

A.学习阶段

B.分类阶段

C.抽样阶段

D.聚合阶段

6.对于数据挖掘中的原始数据,存在的问题有()。

A.不一致

B.重复

C.完整性

D.维度高

A、B、D

7.多重共线性的解决方法有()。

A.岭回归

B.Lasso

C.主成分回归

D.偏最小二乘法

8.可以应用()来检测数值属性的冗余数据。

A.卡方检验

B.相关系数

C.协方差

D.非参数检验

B、C

9.在挖掘过程中,一旦识别闭项集就尽快对搜索空间进行剪枝。

其中,剪枝包括()策略。

A.项合并

B.抽样

C.子项集剪枝

D.项跳过

A、C、D

10.K近邻分类的距离计算方法有()。

A.欧式距离

B.曼哈顿距离

C.马氏距离

D.海明距离

11.以下方法采用的是贪心方法的有()。

A.ID3

B.C4.5

C.CART

D.DBSCAN

12.支持向量机使用()发现超平面。

A.支持向量

B.边缘

C.距离

D.检验元祖

13.关于DBSCAN聚类算法的描述不正确的有()。

A.集群中的数据点必须处于到核心点的距离阈限内

B.它对数据空间中数据点的分布有很强的假设

C.它具有相当高的时间复杂度O(n3)

D.它不需要预先知道期望出现的簇的数量

14.下列属于时间相关或序列数据的有()。

A.历史记录

B.股票交易数据

C.时间序列

D.生物学序列

15.决策树中包括()结点。

B.内部结点

C.外部结点

16.单模矩阵有()。

A.词向量矩阵

B.数据矩阵

C.相异性矩阵

D.相关系数矩阵

C、D

17.盒图中可以观察到的指标有()。

A.方差

B.四分位数

C.最小值

D.众数

18.数值属性相异性的测度指标有()。

A.闵可夫斯基距离

C.欧几里得距离

D.上确界距离

19.可靠的分类器准确率估计方法有()。

A.保持方法

B.随机二次抽样

D.自助法

20.聚类评估的外部指标包括()。

A.DBI指数

B.Jaccard系数

C.rand指数

D.轮廓系数

21.以下属于分类属性选择度量的有()。

A.信息增益

B.增益率

C.基尼指数

D.k-means

22.数据变换的方法包括()。

A.平滑

B.属性构造

C.聚集

D.规范化

23.组合方法可以通过学习和组合一系列个体(基)分类器模型提高总体准确率。

以下属于组合方法的有()。

A.装袋

B.提升

C.随机森林

D.支持向量机

24.Apriori算法的计算复杂度受()影响。

A.支持度阀值

B.项数(维度)

C.事务数

D.事务平均宽度

25.朴素贝叶斯分类方法可以用于()。

A.新闻分类

B.情感分类

C.疾病分类

D.垃圾邮件分类

26.抽样可以作为一种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表示大型数据集。

假定大型数据集D包含N个元组。

那么下述可以用于数据归约的、最常用的对D的抽样方法有()。

A.无放回简单随机抽样

B.有放回简单随机抽样

C.簇抽样

D.分层抽样

27.数据平滑的方法主要有()。

A.平均值法

B.边界值法

C.最小熵法

D.中值法

28.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。

在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的有()。

ID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐。

A.啤酒、尿布

B.啤酒、面包

C.面包、尿布

D.啤酒、牛奶

B、D

29.度量数据散布的度量有()。

A.极差

B.中列数

C.方差

D.标准差

30.K近邻分类的核心问题包括()。

A.K值的确定

B.距离的计算

C.快速预测

D.最大边缘

31.欧几里得距离具备的数学性质有()。

A.同一性

B.非负性

C.连续性

D.满足三角不等式

32.数据归约中,参数方法包括()。

C.对数-线性模型

D.抽样

A、C

33.数据集成可能产生的问题有()。

A.属性冗余

B.元组冲突

C.数据值冲突

D.属性值缺失

三、判断题

1.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。

()

正确

2.对于二维数据,SVM需要找到一条最好的分离直线,使分类误差最小。

3.数据挖掘把大型的数据集转换成知识。

4.ROC曲线下方的面积是模型准确率的度量,面积越接近于0.5,模型准确率越高。

错误

5.回归是一种常见的处理噪声数据的方法。

6.提升度的值等于零表明两个项不相关。

7.具有较高的支持度的项集具有较高的置信度。

8.中位数是数据中心趋势的度量。

9.k-均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。

10.最佳分离超平面上的点称为支持向量。

11.余弦度量是两个与A和B相关的关联规则“AeB”和“BeA”的几何平均置信度。

12.闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广。

13.在决策树中,顶层节点是树叶节点。

14.负倾斜的数据中,众数<

中位数>

<

均值。

()<

body>

<

/均值。

(>

/中位数>

15.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

16.相关分析可以用来检测属性冗余问题。

17.定量属性可以是整数数值或者连续值。

18.聚类形成簇的主题一定是互斥的。

19.一个数据序列只能一个众数。

20.数据库的行对应于数据属性,列对应于数据对象。

21.强规则一定是有趣的。

四、简答题

1.简述三种描述数据散布的统计量及其计算方法。

极差:

观测值最大值与最小值之间的差;

方差:

观测值与平均数差的平方的平均值;

标准差:

方差的算术平方根;

中列数:

观测值最大值与最小值的平均值;

四分位数极差:

第三个四分位数与第一个四分位数之间的差。

2.决策树算法的属性选择度量方法有哪些?

(1)信息增益;

(2)信息增益率;

(3)GINI指数。

3.简述数据变换采用的几种策略。

(1)光滑;

(2)属性构造;

(3)聚集;

(4)规范化;

(5)离散化;

(6)由标称数据产生概念分层。

4.简述凝聚的层次方法的聚类质量改进方法,并对每种方法举出一个实例。

分析每个层次划分中的对象连接,例如Chameleon;

在微簇聚类的基础上结合其他聚类技术,例如BIRCH。

5.常见的数量归约方法有哪些?

(1)参数方法:

回归和对数-线性模型;

(2)非参数方法:

直方图、聚类、抽样、数据立方体聚集。

6.简述如何计算非对称二元属性对象的相异性。

(r+s)/(q+r+s)q:

对象i和j都取1的属性数;

r:

对象i取1,对象j取0的属性数;

s:

对象i取0,对象j取1的属性数。

7.简述支持向量机的基本思想。

SVM算法即寻找一个分类器使得超平面和最近的数据点之间的分类边缘(超平面和最近的数据点之间的间隔被称为分类边缘)最大,对于SVM算法通常认为分类边缘越大,平面越优,通常定义具有“最大间隔”的决策面就是SVM要寻找的最优解。

并且最优解对应两侧虚线要穿过的样本点,称为“支持向量”。

其处理的基本思路为:

把问题转化为一个凸二次规划问题,可以用运筹学有关思想进行求解:

1目标函数在线性SVM算法中,目标函数显然就是那个"

分类间隔"

,使分类间隔最大2约束条件即决策面,通常需要满足三个条件:

(1)确定决策面使其正确分类;

(2)决策面在间隔区域的中轴线;

(3)如何确定支持向量因此求解SVM问题即转化为求解凸二次规划的最优化问题。

8.数据质量可以从哪几个方面进行评估?

(1)准确性;

(2)完整性;

(3)一致性;

(4)时效性;

(5)可信性;

(6)可解释性。

9.简述基于密度聚类方法的一般特点。

(1)可以发现任意形状的簇;

(2)簇的对象空间中被低密度区域分隔的稠密区域;

(3)簇密度:

每个点的“领域”内必须具有最少个数的点;

(4)可能过滤离群点。

10.多重共线性的解决办法有哪些?

(1)岭回归;

(2)Lasso;

(3)主成分回归;

(4)偏最小二乘回归。

11.分类器的评估指标有哪些?

(1)准确率;

(2)错误率;

(3)灵敏性;

(4)特效性;

(5)精度;

(6)召回率;

(7)F

(1)度量;

(8)Fβ度量。

12.简述由频繁项集产生关联规则的步骤。

(1)对于每个频繁项集L,产生L的所有非空子集;

(2)对于L的每个非空子集S,如果满足置信度要求,则输出规则SeL-S。

13.简述三条数据挖掘对聚类的典型要求。

(1)可伸缩性;

(2)可处理不同属性类型数据;

(3)可发现任意形状的簇;

(4)具备对确定输入参数相关领域的知识;

(5)具有处理噪声数据的能力;

(6)增加聚类和输入次序不敏感;

(7)具有处理高维数据的能力;

(8)具有较好的可解释性和可用性;

(9)聚类适应于不同的约束前提。

14.简述数据仓库的特点。

(1)主题与面向主题;

(2)数据的集成性;

(3)数据的不可更新性;

(4)数据的时态性。

15.数据挖掘的相关技术有哪些?

(1)统计学;

(2)机器学习;

(3)数据库;

(4)可视化技术;

(5)算法。

16.简述分类与回归的区别。

分类是找出描述和区分数据类或概念的模型,以便能够使用模型对未知类标号的样例进行预测;

回归主要是建立连续值的函数模型,回归主要用来预测缺失的或难以获得的数值数据值,而不是离散的类标号,同时回归也包含基于可用数据的分布趋势识别。

17.简述描述型的机器学习算法类型。

(1)聚类;

(2)关联规则;

(3)序列分析;

(4)离群点检测。

18.简述k-均值聚类方法的缺点。

(1)必须实现诶出要生成的簇数;

(2)不适于发现非凸形状的簇,或大小差别很大的簇;

(3)对噪声和离群点敏感。

五、计算题

1.假设所分析的数据中数据元组的值为26,14,20,59,66,69,72,23,32,24,34,37,53,17,19,38,43,48,49,56。

(1)该数据的均值是多少?

中位数是多少?

众数是多少?

(2)该数据的中列

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工作范文 > 行政公文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2