盐城数据挖掘考试内部选拔考题及答案.docx
《盐城数据挖掘考试内部选拔考题及答案.docx》由会员分享,可在线阅读,更多相关《盐城数据挖掘考试内部选拔考题及答案.docx(20页珍藏版)》请在冰点文库上搜索。
盐城数据挖掘考试内部选拔考题及答案
数据挖掘考试-内部选拔考题
一、单选题(每题分,共30题)
1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题(A)
A.关联规则发现B.聚类
C.分类D.自然语言处理
2.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务(C)
A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘
3.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(B)
A.分类B.聚类C.关联分析D.隐马尔可夫链
4.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务(A)
A.探索性数据分析B.建模描述
C.预测建模D.寻找模式和规则
5.下面哪种不属于数据预处理的方法(D)
A变量代换B离散化C聚集D估计遗漏值
6.假设12个销售价格记录组已经排序如下:
5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。
等频(等深)划分时,15在第几个箱子内(B)
A第一个B第二个C第三个D第四个
7.只有非零值才重要的二元属性被称作:
(C)
A计数属性B离散属性C非对称的二元属性D对称属性
8.以下哪种方法不属于特征选择的标准方法:
(D)
A嵌入B过滤C包装D抽样
9.下面不属于创建新属性的相关方法的是:
(B)
A特征提取B特征修改C映射数据到新的空间D特征构造
10.假设属性income的最大最小值分别是12000元和98000元。
利用最大最小规范化的方法将属性的值映射到0至1的范围内。
对属性income的73600元将被转化为:
(D)
AB1.224CD
11.假定用于分析的数据包含属性age。
数据元组中age的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:
使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。
第二个箱子值为:
(A)
AB22.6CD
12.数据仓库是随着时间变化的,下面的描述不正确的是(C)
A.数据仓库随时间的变化不断增加新的数据内容;
B.捕捉到的新数据会覆盖原来的快照;
C.数据仓库随事件变化不断删去旧的数据内容;
D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.
13.关于基本数据的元数据是指:
(D)
A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;
B.基本元数据包括与企业相关的管理方面的数据和信息;
C.基本元数据包括日志文件和简历执行处理的时序调度信息;
D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.
14.下面关于数据粒度的描述不正确的是:
(C)
A.粒度是指数据仓库小数据单元的详细程度和级别;
B.数据越详细,粒度就越小,级别也就越高;
C.数据综合度越高,粒度也就越大,级别也就越高;
D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.
15.设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。
A、4B、5C、6D、7
16.概念分层图是__(B)__图。
A、无向无环B、有向无环C、有向有环D、无向有环
17.频繁项集、频繁闭项集、最大频繁项集之间的关系是:
(C)
A、频繁项集频繁闭项集=最大频繁项集
B、频繁项集=频繁闭项集最大频繁项集
C、频繁项集频繁闭项集最大频繁项集
D、频繁项集=频繁闭项集=最大频繁项集
18.在图集合中发现一组公共子结构,这样的任务称为(B)
A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘
19.决策树中不包含一下哪种结点,A,根结点(rootnode)B,内部结点(internalnode)C,外部结点(externalnode)D,叶结点(leafnode)(C)
20.以下哪项关于决策树的说法是错误的(C)
A.冗余属性不会对决策树的准确率造成不利的影响
B.子树可能在决策树中重复多次
C.决策树算法对于噪声的干扰非常敏感
D.寻找最佳决策树是NP完全问题
21.在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为(B)
A.基于类的排序方案
B.基于规则的排序方案
C.基于度量的排序方案
D.基于规格的排序方案。
22.在SQLServer数据库中,有一个产品表products,你想按照价格从小到大的顺序显示所有产品的名称(productname)和价格(price),可以实现该功能的T-SQL语句是(A)。
(选择一项)
(A)SELECTproductname,pricefromproductsorderbypriceASC
(B)SELECTproductname,pricefromproductsorderbypriceDESC
(C)SELECTproductnameandpricefromproductsorderbyprice
(D)SELECTproductnameandpricefromproductsorderbypriceDESC
23.你是公司的SQLserver数据库管理员。
你管理一个数据库,其中有一个产品表Products,记录公司的产品信息,你想删除过期的产品信息,应该用(D)语句。
(选择一项)
(A)select(B)insert(C)update(D)delete
24.下列哪条语句可以完成删除数据库中某个视图的操作:
(D)
A.Delete*fromview_Name
B.Deletefromview_Name
C.DeleteviewTable_Name
D.DropviewTable_Name
25.下列哪条语句可以完成将表xjb中的数据按Class(班级)分组统计出各个班的总人数
显示出来:
(B)
A.Select*fromxjbgroupbyclass
B.SelectClass,总人数=count(Class)fromxjbgroupbyclass
C.SelectClass,总人数=count(Class)fromxjborderbyclass
D.Select*fromxjbOrderbyclass
26.在SQL中,建立表用的命令是(B)。
SCHEMATABLE
VIEWINDEX
27.下列四项中,不正确的提法是(C)。
语言是关系数据库的国际标准语言
语言具有数据定义、查询、操纵和控制功能
语言可以自动实现关系数据库的规范化
语言称为结构查询语言
28.在SQL语言中,建立存储过程的命令是(A)
A、CREATEPROCEDUREB、CREATERULE
C、CREATEDURED、CREATEFILE
29.数据库管理系统的英文缩写是(A)。
A.DBMSB.DBSC.DBAD.DB
30.向用户授予操作权限的SQL语句是(D)。
A.CTEATEB.REVOKEC.SELECTD.GRANT
二、多选题(每题1分,共20题)
1.通过数据挖掘过程所推倒出的关系和摘要经常被称为:
(AB)
A.模型B.模式C.模范D.模具
2寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤(ABCD)
A.决定要使用的表示的特征和结构
B.决定如何量化和比较不同表示拟合数据的好坏
C.选择一个算法过程使评分函数最优
D.决定用什么样的数据管理原则以高效地实现算法。
3.数据挖掘算法的组件包括:
(ABCD)
A.模型或模型结构B.评分函数C.优化和搜索方法D.数据管理策略
4.以下哪些学科和数据挖掘有密切联系(AD)
A.统计B.计算机组成原理C.矿产挖掘D.人工智能
5.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法有:
(ABCDE)
A忽略元组C使用一个全局常量填充空缺值
B使用属性的平均值填充空缺值D使用与给定元组属同一类的所有样本的平均值E使用最可能的值填充空缺值
6.对于数据挖掘中的原始数据,存在的问题有:
(ABCDE)
A不一致B重复C不完整D含噪声E维度高
7.下面列出的条目中,哪些是数据仓库的基本特征:
(ACD)
A.数据仓库是面向主题的B.数据仓库的数据是集成的
C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的
E.数据仓库是面向事务的
8.以下各项均是针对数据仓库的不同说法,你认为正确的有(BCDE)。
A.数据仓库就是数据库
B.数据仓库是一切商业智能系统的基础
C.数据仓库是面向业务的,支持联机事务处理(OLTP)
D.数据仓库支持决策而非事务处理
E.数据仓库的主要目标就是帮助分析,做长期性的战略制定
9.数据仓库在技术上的工作过程是:
(ABCD)
A.数据的抽取B.存储和管理C.数据的表现
D.数据仓库设计E.数据的表现
10.联机分析处理包括以下哪些基本分析功能(BCD)
A.聚类B.切片C.转轴D.切块E.分类
11.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。
在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是(BD)
ID项集
1面包、牛奶
2面包、尿布、啤酒、鸡蛋
3牛奶、尿布、啤酒、可乐
4面包、牛奶、尿布、啤酒
5面包、牛奶、尿布、可乐
A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶
12.Apriori算法的计算复杂度受__(ABCD)__影响。
A、支持度阀值B、项数(维度)
C、事务数D、事务平均宽度
13.非频繁模式__(AD)__
A、其支持度小于阈值B、都是不让人感兴趣的
C、包含负模式和负相关模式D、对异常数据项敏感
14.贝叶斯信念网络(BBN)有如下哪些特点,A,构造网络费时费力B,对模型的过分问题非常鲁棒C,贝叶斯网络不适合处理不完整的数据D,网络结构确定后,添加变量相当麻烦(AB)
15.在SQLServer数据库(排序规则为默认值)中,有一个产品表products,你想按照价格从小到大的顺序显示所以产品的名称(productname)和价格(price),可以实现该功能的T-SQL语句是(AC)。
(选择二项)
(A)SELECTproductname,pricefromproductsorderbypriceASC
(B)SELECTproductname,pricefromproductsorderbypriceDESC
(C)SELECTproductname,pricefromproductsorderbyprice
(D)SELECTproductnameandpricefromproductsorderbypriceDESC
16.数据定义类语言包括(AB)
A.CREATE
17.数据操作类语言包括(ABC)
分析法包括(ABCD)
A.政治B.经济C.社会D.技术
分析法包括(ABCD)
B.What
营销理论包括(ABCD)
A.产品B.价格C.渠道D.促销
三、判断题(每题分,共15分)
1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
(对)
2.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
(对)3.图挖掘技术在社会网络分析中扮演了重要的角色。
(对)
4.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。
(错)
5.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。
(错)
6.离群点可以是合法的数据对象或者值。
(对)
7.离散属性总是具有有限个值。
(错)
8.噪声和伪像是数据错误这一相同表述的两种叫法。
(错)
9.用于分类的离散化方法之间的根本区别在于是否使用类信息。
(对)
10.特征提取技术并不依赖于特定的领域。
(错)
11.定量属性可以是整数值或者是连续值。
(对)
12.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分.(错)
13.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
(错)
14.如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。
(对)
15.具有较高的支持度的项集具有较高的置信度。
(错)
16.聚类(clustering)是这样的过程:
它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
(错)
17.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。
(对)
18.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
(错)
19.'在那遥远的地方'是SQL中的字符串常量吗Y
20.SQLServer不允许字段名为汉字N
21.职称in('教授','副教授'')与职称='教授'or职称='副教授'等价吗Y
22.在表中创建一个标识列(IDENTITY),当用户向表中插入新的数据行时,系统自动为该行标识列赋值吗Y
23.在事务中包含createdatabase语句吗N
24.连接、选择和投影三种关系运算具有相同的结果。
N
25.数据的安全性主要防范的对象是合法用户。
N
26.恢复是利用冗余数据来重建数据库。
Y
27.创建唯一性索引的列可以有一些重复的值N
28.存储过程的输出结果可以传递给一个变量。
Y
29.视图具有与表相同的功能,在视图上也可以创建触发器。
N
30.SQLServer2000不具有数据的导入与导出功能。
N
四、填空题(每空分,共20题)
1.噪声数据处理的方法主要有 分箱 、 聚类 和 回归 。
2.数值归约的常用方法有 回归和对数线性模型、直方图、聚类 、 选样和对数模型等。
3.评价关联规则的2个主要指标是 支持度 和 置信度 。
4.决策树是用 属性 作为结点,用 属性的取值作为分支的树结构。
5.关联可分为简单关联、 和 。
6.数据挖掘的主要功能包括 概念描述 、 挖掘频繁模式 、 分类和预测 、 聚类分析、趋势分析、孤立点分析和偏差分析7个方面。
7.聚类分析的数据通常可分为区间标度变量、 、 、 、序数型以及混合类型等。
8.聚类分析中最常用的距离计算公式有 、 、 等。
9.基于划分的聚类算法有 K均值 和 K中心点 。
10.数据定义语言(DDL)包括:
__create_____、___drop____、___alter____、___truncate____、_______。
11.数据操作语言(DML)包括:
___insert____、___update____、__delete_____。
12.数据控制语言(DCL)包括:
____grant___、__revoke_____、___createsynonym____。
13.EXCEL中处理重复项共有四种方法:
___countif函数____、__高级筛选_____、____条件格式___、___去除重复项____。
五、简答题(每题4分,共16分)
1.名词解释:
孤立点、频繁项集、支持度、可信度、关联规则
1.孤立点:
指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
2.频繁项集:
指满足最小支持度的项集,是挖掘关联规则的基本条件之一。
3.支持度:
规则A→B的支持度指的是所有事件中A与B同地发生的的概率,即P(A∪B),是AB同时发生的次数与事件总次数之比。
支持度是对关联规则重要性的衡量。
4.可信度:
规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A),是AB同时发生的次数与A发生的所有次数之比。
可信度是对关联规则的准确度的衡量。
2.在数据挖掘之前为什么要对原始数据进行预处理
原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。
为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。
3.简述处理空缺值的方法。
1忽略该记录;
2去掉属性;
3手工填写空缺值;
4使用默认值;
5使用属性平均值;
6使用同类样本平均值;
7预测最可能的值。
4.请说出常用的四种数据分析方法论
PEST分析法、5W2H分析法、逻辑树分析法、4P营销理论、用户行为理论
六、计算题(每题5分,共20分)
1、设某事务项集构成如下表,填空完成其中支持度和置信度的计算。
事务ID
项集
L2
支持度%
规则
置信度%
T1
A,D
A,B
A→B
50
T2
D,E
A,C
C→A
60
T3
A,C,E
A,D
A→D
T4
A,B,D,E
B,D
B→D
75
T5
A,B,C
C,D
C→D
60
T6
A,B,D
D,E
D→E
43
T7
A,C,D
…
…
T8
C,D,E
T9
B,C,D
2.简述K-中心点算法的输入、输出及聚类过程(流程)。
输入:
结果簇的数目k,包含n个对象的数据集
输出:
k个簇,使得所有对象与其最近中心点的相异度总和最小。
流程:
1随机选择k个对象作为初始中心点;
2计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;
3随机地选择一个非中心点对象Orandom,并计算用Orandom代替Oj的总代价S;
4如果S<0,则用Orandom代替Oj,形成新的k个中心点集合;
重复迭代第3、4步,直到中心点不变为止。
3.为管理岗位业务培训信息,建立3个表:
S(S#,SN,SD,SA)S#,SN,SD,SA分别代表学号、学员姓名、所属单位、学员年龄
C(C#,CN)C#,CN分别代表课程编号、课程名称
SC(S#,C#,G)S#,C#,G分别代表学号、所选修的课程编号、学习成绩
1.使用标准SQL嵌套语句查询选修课程名称为’税收基础’的学员学号和姓名
--实现代码:
SelectSN,SDFROMS
Where[S#]IN(
Select[S#]FROMC,SC
WhereC.[C#]=SC.[C#]
ANDCN=N'税收基础')
2.使用标准SQL嵌套语句查询选修课程编号为’C2’的学员姓名和所属单位
--实现代码:
Select,FROMS,SC
WhereS.[S#]=SC.[S#]
ANDSC.[C#]='C2'
3.使用标准SQL嵌套语句查询不选修课程编号为’C5’的学员姓名和所属单位
--实现代码:
SelectSN,SDFROMS
Where[S#]NOTIN(
Select[S#]FROMSC
Where[C#]='C5')
4.使用标准SQL嵌套语句查询选修全部课程的学员姓名和所属单位
--实现代码:
SelectSN,SDFROMS
Where[S#]IN(
Select[S#]FROMSC
RIGHTJOIN
CONSC.[C#]=C.[C#]GROUPBY[S#]
HAVINGCOUNT(*)=COUNT([S#]))
5.查询选修课程超过5门的学员学号和所属单位
--实现代码:
SelectSN,SDFROMS
Where[S#]IN(
Select[S#]FROMSC
GROUPBY[S#]
HAVINGCOUNT(DISTINCT[C#])>5)
4. 问题描述:
已知关系模式:
S(SNO,SNAME)学生关系。
SNO为学号,SNAME为姓名
C(CNO,CNAME,CTEACHER)课程关系。
CNO为课程号,CNAME为课程名,CTEACHER为任课教师
SC(SNO,CNO,SCGRADE)选课关系。
SCGRADE为成绩
1.找出没有选修过“李明”老师讲授课程的所有学生姓名
--实现代码:
SelectSNAMEFROMS
WhereNOTEXISTS(
Select*FROMSC,C
Where=
ANDCNAME='李明'
AND=
2.列出有二门以上(含两门)不及格课程的学生姓名及其平均成绩
--实现代码:
Select,,AVG_SCGRADE=AVG
FROMS,SC,(
SelectSNO
FROMSC
WhereSCGRADE<60
GROUPBYSNO
HAVINGCOUNT(DISTINCTCNO)>=2
)AWhere=AND=
GROU