盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx

上传人:b****4 文档编号:7275175 上传时间:2023-05-08 格式:DOCX 页数:20 大小:24.12KB
下载 相关 举报
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第1页
第1页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第2页
第2页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第3页
第3页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第4页
第4页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第5页
第5页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第6页
第6页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第7页
第7页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第8页
第8页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第9页
第9页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第10页
第10页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第11页
第11页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第12页
第12页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第13页
第13页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第14页
第14页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第15页
第15页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第16页
第16页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第17页
第17页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第18页
第18页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第19页
第19页 / 共20页
盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx_第20页
第20页 / 共20页
亲,该文档总共20页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx

《盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx》由会员分享,可在线阅读,更多相关《盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx(20页珍藏版)》请在冰点文库上搜索。

盐城数据挖掘考试内部选拔考题及答案Word文件下载.docx

使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为:

(A)

AB22.6CD

12.数据仓库是随着时间变化的,下面的描述不正确的是(C)

A.数据仓库随时间的变化不断增加新的数据内容;

B.捕捉到的新数据会覆盖原来的快照;

C.数据仓库随事件变化不断删去旧的数据内容;

D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.

13.关于基本数据的元数据是指:

A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;

B.基本元数据包括与企业相关的管理方面的数据和信息;

C.基本元数据包括日志文件和简历执行处理的时序调度信息;

D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.

14.下面关于数据粒度的描述不正确的是:

(C)

A.粒度是指数据仓库小数据单元的详细程度和级别;

B.数据越详细,粒度就越小,级别也就越高;

C.数据综合度越高,粒度也就越大,级别也就越高;

D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.

15.设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。

A、4B、5C、6D、7

16.概念分层图是__(B)__图。

A、无向无环B、有向无环C、有向有环D、无向有环

17.频繁项集、频繁闭项集、最大频繁项集之间的关系是:

A、频繁项集频繁闭项集=最大频繁项集

B、频繁项集=频繁闭项集最大频繁项集

C、频繁项集频繁闭项集最大频繁项集

D、频繁项集=频繁闭项集=最大频繁项集

18.在图集合中发现一组公共子结构,这样的任务称为(B)

A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘

19.决策树中不包含一下哪种结点,A,根结点(rootnode)B,内部结点(internalnode)C,外部结点(externalnode)D,叶结点(leafnode)(C)

20.以下哪项关于决策树的说法是错误的(C)

A.冗余属性不会对决策树的准确率造成不利的影响

B.子树可能在决策树中重复多次

C.决策树算法对于噪声的干扰非常敏感

D.寻找最佳决策树是NP完全问题

21.在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为(B)

A.基于类的排序方案

B.基于规则的排序方案

C.基于度量的排序方案

D.基于规格的排序方案。

22.在SQLServer数据库中,有一个产品表products,你想按照价格从小到大的顺序显示所有产品的名称(productname)和价格(price),可以实现该功能的T-SQL语句是(A)。

(选择一项)

(A)SELECTproductname,pricefromproductsorderbypriceASC

(B)SELECTproductname,pricefromproductsorderbypriceDESC

(C)SELECTproductnameandpricefromproductsorderbyprice

(D)SELECTproductnameandpricefromproductsorderbypriceDESC

23.你是公司的SQLserver数据库管理员。

你管理一个数据库,其中有一个产品表Products,记录公司的产品信息,你想删除过期的产品信息,应该用(D)语句。

(A)select(B)insert(C)update(D)delete

24.下列哪条语句可以完成删除数据库中某个视图的操作:

(D)

A.Delete*fromview_Name

B.Deletefromview_Name

C.DeleteviewTable_Name

D.DropviewTable_Name

25.下列哪条语句可以完成将表xjb中的数据按Class(班级)分组统计出各个班的总人数

显示出来:

(B)

A.Select*fromxjbgroupbyclass

B.SelectClass,总人数=count(Class)fromxjbgroupbyclass

C.SelectClass,总人数=count(Class)fromxjborderbyclass

D.Select*fromxjbOrderbyclass

26.在SQL中,建立表用的命令是(B)。

SCHEMATABLE

VIEWINDEX

27.下列四项中,不正确的提法是(C)。

语言是关系数据库的国际标准语言

语言具有数据定义、查询、操纵和控制功能

语言可以自动实现关系数据库的规范化

语言称为结构查询语言

28.在SQL语言中,建立存储过程的命令是(A)

A、CREATEPROCEDUREB、CREATERULE

C、CREATEDURED、CREATEFILE

29.数据库管理系统的英文缩写是(A)。

A.DBMSB.DBSC.DBAD.DB

30.向用户授予操作权限的SQL语句是(D)。

A.CTEATEB.REVOKEC.SELECTD.GRANT

二、多选题(每题1分,共20题)

1.通过数据挖掘过程所推倒出的关系和摘要经常被称为:

(AB)

A.模型B.模式C.模范D.模具

2寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤(ABCD)

A.决定要使用的表示的特征和结构

B.决定如何量化和比较不同表示拟合数据的好坏

C.选择一个算法过程使评分函数最优

D.决定用什么样的数据管理原则以高效地实现算法。

3.数据挖掘算法的组件包括:

(ABCD)

A.模型或模型结构B.评分函数C.优化和搜索方法D.数据管理策略

4.以下哪些学科和数据挖掘有密切联系(AD)

A.统计B.计算机组成原理C.矿产挖掘D.人工智能

5.在现实世界的数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法有:

(ABCDE)

A忽略元组C使用一个全局常量填充空缺值

B使用属性的平均值填充空缺值D使用与给定元组属同一类的所有样本的平均值E使用最可能的值填充空缺值

6.对于数据挖掘中的原始数据,存在的问题有:

A不一致B重复C不完整D含噪声E维度高  

7.下面列出的条目中,哪些是数据仓库的基本特征:

(ACD)

A.数据仓库是面向主题的B.数据仓库的数据是集成的

C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的

E.数据仓库是面向事务的

8.以下各项均是针对数据仓库的不同说法,你认为正确的有(BCDE)。

A.数据仓库就是数据库

B.数据仓库是一切商业智能系统的基础

C.数据仓库是面向业务的,支持联机事务处理(OLTP)

D.数据仓库支持决策而非事务处理

E.数据仓库的主要目标就是帮助分析,做长期性的战略制定

9.数据仓库在技术上的工作过程是:

(ABCD)

A.数据的抽取B.存储和管理C.数据的表现

D.数据仓库设计E.数据的表现

10.联机分析处理包括以下哪些基本分析功能(BCD)

A.聚类B.切片C.转轴D.切块E.分类

11.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。

在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是(BD)

ID项集

1面包、牛奶

2面包、尿布、啤酒、鸡蛋

3牛奶、尿布、啤酒、可乐

4面包、牛奶、尿布、啤酒

5面包、牛奶、尿布、可乐

A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶

12.Apriori算法的计算复杂度受__(ABCD)__影响。

A、支持度阀值B、项数(维度)

C、事务数D、事务平均宽度

13.非频繁模式__(AD)__

A、其支持度小于阈值B、都是不让人感兴趣的

C、包含负模式和负相关模式D、对异常数据项敏感

14.贝叶斯信念网络(BBN)有如下哪些特点,A,构造网络费时费力B,对模型的过分问题非常鲁棒C,贝叶斯网络不适合处理不完整的数据D,网络结构确定后,添加变量相当麻烦(AB)

15.在SQLServer数据库(排序规则为默认值)中,有一个产品表products,你想按照价格从小到大的顺序显示所以产品的名称(productname)和价格(price),可以实现该功能的T-SQL语句是(AC)。

(选择二项)

(C)SELECTproductname,pricefromproductsorderbyprice

16.数据定义类语言包括(AB)

A.CREATE

17.数据操作类语言包括(ABC)

分析法包括(ABCD)

A.政治B.经济C.社会D.技术

分析法包括(ABCD)

B.What

营销理论包括(ABCD)

A.产品B.价格C.渠道D.促销

三、判断题(每题分,共15分)

1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

(对)

2.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

(对)3.图挖掘技术在社会网络分析中扮演了重要的角色。

(对)

4.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;

模型则对变量变化空间的一个有限区域做出描述。

(错)

5.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。

6.离群点可以是合法的数据对象或者值。

    (对)

7.离散属性总是具有有限个值。

        (错)

8.噪声和伪像是数据错误这一相同表述的两种叫法。

     (错)

9.用于分类的离散化方法之间的根本区别在于是否使用类信息。

   (对)

10.特征提取技术并不依赖于特定的领域。

      (错)

11.定量属性可以是整数值或者是连续值。

     (对)

12.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分.(错)

13.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

14.如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。

15.具有较高的支持度的项集具有较高的置信度。

16.聚类(clustering)是这样的过程:

它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

(错)

17.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。

18.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

19.'

在那遥远的地方'

是SQL中的字符串常量吗Y

20.SQLServer不允许字段名为汉字N

21.职称in('

教授'

'

副教授'

'

)与职称='

or职称='

等价吗Y

22.在表中创建一个标识列(IDENTITY),当用户向表中插入新的数据行时,系统自动为该行标识列赋值吗Y

23.在事务中包含createdatabase语句吗N

24.连接、选择和投影三种关系运算具有相同的结果。

N

25.数据的安全性主要防范的对象是合法用户。

26.恢复是利用冗余数据来重建数据库。

Y

27.创建唯一性索引的列可以有一些重复的值N

28.存储过程的输出结果可以传递给一个变量。

29.视图具有与表相同的功能,在视图上也可以创建触发器。

30.SQLServer2000不具有数据的导入与导出功能。

四、填空题(每空分,共20题)

1.噪声数据处理的方法主要有 分箱 、 聚类 和 回归 。

2.数值归约的常用方法有 回归和对数线性模型、直方图、聚类 、 选样和对数模型等。

3.评价关联规则的2个主要指标是 支持度 和 置信度 。

4.决策树是用 属性 作为结点,用 属性的取值作为分支的树结构。

5.关联可分为简单关联、  和  。

6.数据挖掘的主要功能包括 概念描述 、 挖掘频繁模式 、 分类和预测 、  聚类分析、趋势分析、孤立点分析和偏差分析7个方面。

7.聚类分析的数据通常可分为区间标度变量、  、  、  、序数型以及混合类型等。

8.聚类分析中最常用的距离计算公式有  、  、  等。

9.基于划分的聚类算法有 K均值 和 K中心点 。

10.数据定义语言(DDL)包括:

__create_____、___drop____、___alter____、___truncate____、_______。

11.数据操作语言(DML)包括:

___insert____、___update____、__delete_____。

12.数据控制语言(DCL)包括:

____grant___、__revoke_____、___createsynonym____。

13.EXCEL中处理重复项共有四种方法:

___countif函数____、__高级筛选_____、____条件格式___、___去除重复项____。

五、简答题(每题4分,共16分)

1.名词解释:

孤立点、频繁项集、支持度、可信度、关联规则

1.孤立点:

指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。

2.频繁项集:

指满足最小支持度的项集,是挖掘关联规则的基本条件之一。

3.支持度:

规则A→B的支持度指的是所有事件中A与B同地发生的的概率,即P(A∪B),是AB同时发生的次数与事件总次数之比。

支持度是对关联规则重要性的衡量。

4.可信度:

规则A→B的可信度指的是包含A项集的同时也包含B项集的条件概率P(B|A),是AB同时发生的次数与A发生的所有次数之比。

可信度是对关联规则的准确度的衡量。

2.在数据挖掘之前为什么要对原始数据进行预处理

原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。

为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。

3.简述处理空缺值的方法。

1忽略该记录;

2去掉属性;

3手工填写空缺值;

4使用默认值;

5使用属性平均值;

6使用同类样本平均值;

7预测最可能的值。

4.请说出常用的四种数据分析方法论

PEST分析法、5W2H分析法、逻辑树分析法、4P营销理论、用户行为理论

六、计算题(每题5分,共20分)

1、设某事务项集构成如下表,填空完成其中支持度和置信度的计算。

事务ID

项集

L2

支持度%

规则

置信度%

T1

A,D

A,B

A→B

50

T2

D,E

A,C

C→A

60

T3

A,C,E

A→D

T4

A,B,D,E

B,D

B→D

75

T5

A,B,C

C,D

C→D

T6

A,B,D

D→E

43

T7

A,C,D

T8

C,D,E

T9

B,C,D

2.简述K-中心点算法的输入、输出及聚类过程(流程)。

输入:

结果簇的数目k,包含n个对象的数据集

输出:

k个簇,使得所有对象与其最近中心点的相异度总和最小。

流程:

1随机选择k个对象作为初始中心点;

2计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;

3随机地选择一个非中心点对象Orandom,并计算用Orandom代替Oj的总代价S;

4如果S<

0,则用Orandom代替Oj,形成新的k个中心点集合;

重复迭代第3、4步,直到中心点不变为止。

3.为管理岗位业务培训信息,建立3个表:

  S(S#,SN,SD,SA)S#,SN,SD,SA分别代表学号、学员姓名、所属单位、学员年龄

  C(C#,CN)C#,CN分别代表课程编号、课程名称

SC(S#,C#,G)S#,C#,G分别代表学号、所选修的课程编号、学习成绩

  1.使用标准SQL嵌套语句查询选修课程名称为’税收基础’的学员学号和姓名

  --实现代码:

  SelectSN,SDFROMS

  Where[S#]IN(

  Select[S#]FROMC,SC

  WhereC.[C#]=SC.[C#]

  ANDCN=N'

税收基础'

  2.使用标准SQL嵌套语句查询选修课程编号为’C2’的学员姓名和所属单位

  Select,FROMS,SC

  WhereS.[S#]=SC.[S#]

  ANDSC.[C#]='

C2'

  3.使用标准SQL嵌套语句查询不选修课程编号为’C5’的学员姓名和所属单位

  Where[S#]NOTIN(

  Select[S#]FROMSC

  Where[C#]='

C5'

  4.使用标准SQL嵌套语句查询选修全部课程的学员姓名和所属单位

  RIGHTJOIN

  CONSC.[C#]=C.[C#]GROUPBY[S#]

HAVINGCOUNT(*)=COUNT([S#]))

5.查询选修课程超过5门的学员学号和所属单位

  GROUPBY[S#]

  HAVINGCOUNT(DISTINCT[C#])>

5)

4.  问题描述:

已知关系模式:

  S(SNO,SNAME)学生关系。

SNO为学号,SNAME为姓名

  C(CNO,CNAME,CTEACHER)课程关系。

CNO为课程号,CNAME为课程名,CTEACHER为任课教师

  SC(SNO,CNO,SCGRADE)选课关系。

SCGRADE为成绩

 1.找出没有选修过“李明”老师讲授课程的所有学生姓名

  SelectSNAMEFROMS

  WhereNOTEXISTS(

  Select*FROMSC,C

  Where=

  ANDCNAME='

李明'

  AND=

  2.列出有二门以上(含两门)不及格课程的学生姓名及其平均成绩

  Select,,AVG_SCGRADE=AVG

  FROMS,SC,(

  SelectSNO

  FROMSC

  WhereSCGRADE<

60

  GROUPBYSNO

  HAVINGCOUNT(DISTINCTCNO)>

=2

  )AWhere=AND=

  GROU

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > PPT模板 > 商务科技

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2