南开《大数据导论》20春期末考核答案.docx
《南开《大数据导论》20春期末考核答案.docx》由会员分享,可在线阅读,更多相关《南开《大数据导论》20春期末考核答案.docx(6页珍藏版)》请在冰点文库上搜索。
《大数据导论》20春期末考核-00001试卷总分:
100 得分:
70
一、单选题(共10道试题,共20分)1.大数据的特点不包含
A.数据体量大
B.价值密度高C.处理速度快D.数据不统一答案:
D
2.PaaS是()的简称
A.软件即服务B.平台即服务
C.基础设施即服务D.硬件即服务
答案:
B
3.IaaS是()的简称
A.软件即服务B.平台即服务
C.基础设施即服务D.硬件即服务
答案:
C
4.购物篮问题是##的典型案例A.数据变换
B.关联规则挖掘C.数据分类
答案:
B
5.基础设施即服务的英文简称是A.IaaS
B.PaaSC.SaaS答案:
A
6.数据清洗的方法不包括A.缺失值处理
B.噪声数据清除C.一致性检查
D.重复数据记录处理答案:
D
7.以下哪项不是数据可视化工具的特性()
A.实时性B.简单操作
C.更丰富的展现
D.仅需一种数据支持方式即可答案:
D
8.下列哪个工具常用来开发移动友好地交互地图()A.Leaflet
B.Visual.lyC.BPizzaPieChartsD.Gephi
答案:
A
9.SAN是一种()A.存储设备
B.专为数据存储而设计构建的网络C.光纤交换机
D.HBA
答案:
B
10.GFS中的文件切分成()的块进行存储
A.32MBB.64MBC.128MBD.1G
答案:
B
二、多选题(共10道试题,共20分)11.数据预处理的过程主要是
A.数据清洗
B.数据集成C.数据变换D.数据规约答案:
ABCD
12.大数据时代预测人类移动行为的数据特点是A.多样化
B.数据量大C.维数高D.变化快答案:
BCD
13.下列属于传统统计学展示方法的是()A.柱状图
B.饼状图C.曲线图D.网络图答案:
ABC
14.百度大数据引擎主要包含三大组件()A.开放云
B.数据工厂
C.百度大脑。
答案:
ABC
15.去除噪声使得数据光滑的技术主要有:
A.分箱
B.回归
C.离群点分析答案:
ABC
16.大数据存储的特点与挑战有()A.容量问题
B.延迟问题
C.安全问题D.成本问题答案:
ABCD
17.大数据在医疗中的应用有()A.流行性疾病预防
B.慢性病健康管理C.临床决策支持D.医疗器械研发答案:
ABCD
18.医疗大数据的来源主要包括()A.制药企业/生命科学
B.临床医疗/实验室数据C.费用报销/利用率
D.健康管理/社交网络答案:
ABCD
19.数据分析的类型根据数据分析深度可以分为()A.描述性分析
B.预测性分析sC.规则性分析答案:
ABC
20.数据处理的两种方法是##,##A.批处理
B.流处理
C.单个处理D.交叉处理答案:
AB
三、判断题(共15道试题,共30分)
21.所有关系型数据中的数据全部为结构化数据。
半结构化数据就是介于完全结构化数据和完全无结构化的数据之间的数据。
答案:
正确
22.关联分析是从有噪声的、模糊的、随机的海量数据中,挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程。
答案:
正确
23.数据的大量聚集,使得黑客一次成功的攻击能够获得更多的数据,无形中降低了黑客的进攻成本,增加了“收益率“。
答案:
正确
24.数据隐私和安全是大数据发展面临的挑战答案:
正确
25.用户可以感知不同属性之间的相关性,过滤掉噪声和不相关的轨迹,用于进一步调查有趣的案例。
分析人员可以交互式地逐步优化设置以改进结果。
答案:
正确
26.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。
只有符合用户需求和用户安全的商业利益,才能成为可持续的商业利益。
答案:
正确
27.频繁项集的子集是频繁项集,非频繁项集的超集是非频繁项集。
答案:
正确
28.Twitter作为主流社交网络平台,不仅仅是一个海量公共数据集,它还是一个带有时间刻度的海量公共数据集——用于捕捉特定时间中(在一些情况下,也是在特定空间中)数百万人关于所有主题事项的想法。
答案:
正确
29.Spark的亮点是充分利用内存承载工作集,而且能保证容错。
答案:
正确
30.Apriori算法扫描数据库的次数等于最大频繁项集的项数。
答案:
正确
31.高质量的数据是能够满足应用需求的数据。
答案:
正确
32.离群点检测的任务是识别特征显著不同于其他数据的观测值答案:
正确
33.数据分析是大数据发展面临的挑战答案:
正确
34.百度地图春节人口迂徙大数据.在业界首次实现了全程、动态、即时直观地展现中国春节前后人口大迁徙的轨迹与特征。
答案:
正确
35.用一个函数拟合数据来光滑数据称为回归。
答案:
正确
四、简答题(共2道试题,共12分)
36.简述云计算的体系架构分层及每层的含义。
答案:
云计算可以按需提供弹性资源,它的表现形式是一系列服务的集合。
结合当前云计算的应用与研究,其体系架构可分为核心服务、服务管理、用户访问接口三层。
1)核心服务层将硬件基础设施、软件运行环境、应用程序抽象成服务,这些服务具有可靠性强、
可用性高、规模可伸缩等特点,满足多样化的应用需求。
2)服务管理层为核心服务提供支持,进一步确保核心服务的可靠性、可用性与安全性。
3)用户访问接口层实现端到云的访问。
37.简述数据可视化的流程和步骤。
答案:
数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用4个步骤。
1)数据获取
数据获取的形式多种多样,大致可以分为主动式和被动式两种。
主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数
据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等。
2)数据处理
数据处理是指对原始的数据进行分析、预处理和计算等步骤。
数据处理的目标是保证数据的准确性、可用性等。
3)可视化模式
可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等。
可视化模式的选取决定了可视化方案的雏形。
4)可视化应用
可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论。
可视化界面也
可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果。
五、名词解释(共3道试题,共18分)38.聚类分析
答案:
聚类分析(Clusteranalysis)简称聚类(Clustering),是把数据对象划分成子集(类)
的过程,每个子集称为一个簇(Cluster),同一个簇中的数据之间存在最大相似性,不同簇之间的数据间存在最大的差异性。
39.云存储
答案:
云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新的概念,是一种新兴的网络存储技术。
它是云计算的重要组成部分,也是云计算的重要应用之一。
云存储是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。
40.NoSQL
答案:
NoSQL是泛指非关系型、分布式和不提供ACID的数据库,它不是单纯地反对关系型数据库,而是强调键值存储和文档数据库的优点。