国家开放大学《大数据技术》形考任务1-4参考答案.docx

资源描述

《国家开放大学《大数据技术》形考任务1-4参考答案.docx》由会员分享，可在线阅读，更多相关《国家开放大学《大数据技术》形考任务1-4参考答案.docx（17页珍藏版）》请在冰点文库上搜索。

国家开放大学《大数据技术》形考任务1-4参考答案.docx

国家开放大学《大数据技术》形考任务1-4参考答案

形考任务1

一、单选题

1、第一次信息化浪潮主要解决什么问题？

A.信息传输

B.信息处理

C.信息爆炸

D.信息转换

2、下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能？

A.利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理

B.利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析

C.构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全

D.把实时采集的数据作为流计算系统的输入，进行实时处理分析

3、在大数据的计算模式中，流计算解决的是什么问题？

A.针对大规模数据的批量处理

B.针对大规模图结构数据的处理

C.大规模数据的存储管理和查询分析

D.针对流数据的实时计算

4、下列哪个不属于HADoop的特性？

A.成本高

B.高可靠性

C.高容错性

D.运行在Linux平台上

5、HADoop框架中最核心的设计是什么？

A.为海量数据提供存储的HDFS和对数据进行计算的MApReDuCe

B.提供整个HDFS文件系统的NAmeSpACe命名空间管理、块管理等所有服务

C.HADoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中

D.HADoop被视为事实上的大数据处理标准

6、在一个基本的HADoop集群中，DAtANoDe主要负责什么？

A.负责执行由JoBTrACker指派的任务

B.协调数据计算任务

C.负责协调集群中的数据存储

D.存储被拆分的数据块

7、分布式文件系统指的是什么？

A.把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群

B.用于在HADoop与传统数据库之间进行数据传递

C.一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统

D.一种高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据

8、下面哪一项不属于计算机集群中的节点？

A.主节点MAsterNoDe

B.源节点SourCeNoDe

C.名称结点NAmeNoDe

D.从节点SlAveNoDe

9、在HDFS中，默认一个块多大？

A.64MB

B.32KB

C.128KB

D.16KB

10、下列哪一项不属于HDFS采用抽象的块概念带来的好处？

A.简化系统设计

B.支持大规模文件存储

C.强大的跨平台兼容性

D.适合数据备份

二、多选题

1、第三次信息化浪潮的标志是哪些技术的兴起？

A.个人计算机

B.物联网

C.云计算

D.大数据

2、信息科技为大数据时代提供哪些技术支撑？

A.存储设备容量不断增加

B.网络带宽不断增加

C.CPU处理能力大幅提升

D.数据量不断增大

3、大数据具有哪些特点？

A.数据的“大量化”

B.数据的“快速化”

C.数据的“多样化”

D.数据的“价值密度比较低”

4、HADoop的特性包括哪些？

A.高可扩展性

B.支持多种编程语言

C.成本低

D.运行在Linux平台上

5、下面哪个是HADoop2.0的组件？

A.ResourCeMAnAger

B.JoBTrACker

C.TAskTrACker

D.NoDeMAnAger

6、一个基本的HADoop集群中的节点主要包括什么？

A.DAtANoDe：

存储被拆分的数据块

B.JoBTrACker：

协调数据计算任务

C.TAskTrACker：

负责执行由JoBTrACker指派的任务

D.SeConDAryNAmeNoDe：

帮助NAmeNoDe收集文件系统运行的状态信息

7、HDFS要实现以下哪几个目标？

A.兼容廉价的硬件设备

B.流数据读写

C.大数据集

D.复杂的文件模型

8、HDFS特殊的设计，在实现优良特性的同时，也使得自身具有一些应用局限性，主要包括以下哪几个方面？

A.较差的跨平台兼容性

B.无法高效存储大量小文件

C.不支持多用户写入及任意修改文件

D.不适合低延迟数据访问

9、HDFS采用抽象的块概念可以带来以下哪几个明显的好处？

A.支持大规模文件存储

B.支持小规模文件存储

C.适合数据备份

D.简化系统设计

10、在HDFS中，名称节点（NAmeNoDe）主要保存了哪些核心的数据结构？

A.FsImAge

B.DN8

C.BloCk

D.EDitLog

形考任务2

一、单选题

1、下列关于BigTABle的描述，哪个是错误的？

A.爬虫持续不断地抓取新页面，这些页面每隔一段时间地存储到BigTABle里

B.BigTABle是一个分布式存储系统

C.BigTABle起初用于解决典型的互联网搜索问题

D.网络搜索应用查询建立好的索引，从BigTABle得到网页

2、下列选项中，关于HB.A.se和BigTABle的底层技术对应关系，哪个是错误的？

A.GFS与HDFS相对应

B.GFS与Zookeeper相对应

C.MApReDuCe与HADoopMApReDuCe相对应

D.ChuBBy与Zookeeper相对应

3、在HBAse中，关于数据操作的描述，下列哪一项是错误的？

A.HBAse采用了更加简单的数据模型，它把数据存储为未经解释的字符串

B.HBAse操作不存在复杂的表与表之间的关系

C.HBAse不支持修改操作

D.HBAse在设计上就避免了复杂的表和表之间的关系

4、下列哪个不属于NoSQL数据库的特点？

A.灵活的可扩展性

B.灵活的数据模型

C.与云计算紧密融合

D.数据存储规模有限

5、下面关于NoSQL和关系数据库的简单比较，哪个是错误的？

A.RDBMS有关系代数理论作为基础，NoSQL没有统一的理论基础

B.NoSQL很难实现横向扩展，RDBMS可以很容易通过添加更多设备来支持更大规模的数据

C.RDBMS需要定义数据库模式，严格遵守数据定义，NoSQL一般不存在数据库模式，可以自由灵活定义并存储各种不同类型的数据

D.RDBMS借助于索引机制可以实现快速查询，很多NoSQL数据库没有面向复杂查询的索引

6、下列哪一项不属于NoSQL的四大类型？

A.文档数据库

B.图数据库

C.列族数据库

D.时间戳数据库

7、下列哪个不属于云计算的优势？

A.按需服务

B.随时服务

C.通用性

D.价格不菲

8、下列关于云数据库的描述，哪个是错误的？

A.云数据库是部署和虚拟化在云计算环境中的数据库

B.云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法

C.云数据库价格不菲，维护费用极其昂贵

D.云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点

9、下列哪一个不属于云数据库产品？

A.本地安装MySQL

B.阿里云RDS

C.OrACleClouD

D.百度云数据库

10、UMP系统是构建在一个大的集群之上的，下列哪一项不属于系统向用户提供的功能？

A.读写分离

B.分库分表

C.数据安全

D.资源合并

二、多选题

1、关系数据库已经流行很多年，并且HADoop已经有了HDFS和MApReDuCe，为什么需要HBAse？

A.HADoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于HADoopMApReDuCe编程框架的高延迟数据处理机制，使得HADoop无法满足大规模数据实时处理应用的需求上

B.HDFS面向批量访问模式，不是随机访问模式

C.传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题

D.传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间

2、HBAse与传统的关系数据库的区别主要体现在以下哪几个方面？

A.数据类型

B.数据操作

C.存储模式

D.数据维护

3、HBAse访问接口类型包括哪些？

A.NAtiveJAvAAPI

B.HBAseShell

C.ThriftGAtewAy

D.RESTGAtewAy

4、关系数据库已经无法满足WeB2.0的需求，主要表现在以下几个方面？

A.无法满足海量数据的管理需求

B.无法满足数据高并发的需求

C.无法满足高可扩展性和高可用性的需求

D.使用难度高

5、下列关于MySQL集群的描述，哪些是正确的？

A.复杂性：

部署、管理、配置很复杂

B.数据库复制：

MySQL主备之间一般采用复制方式，很多时候是异步复制

C.扩容问题：

如果系统压力过大需要增加新的机器，这个过程涉及数据重新划分

D.动态数据迁移问题：

如果某个数据库组压力过大，需要将其中部分数据迁移出去

6、关系数据库引以为傲的两个关键特性完善的事务机制和高效的查询机制，到了WeB2.0时代却成了鸡肋，主要表现在以下哪几个方面？

A.WeB2.0网站系统通常不要求严格的数据库事务

B.WeB2.0网站系统基本上不用关系数据库来存储数据

C.WeB2.0并不要求严格的读写实时性

D.WeB2.0通常不包含大量复杂的SQL查询

7、云数据库具有以下哪些特性？

A.动态可扩展

B.高可用性

C.免维护

D.安全

8、下列关于云数据库的描述，哪些是正确的？

A.AmAzon是云数据库市场的先行者

B.GoogleClouDSQL是谷歌公司推出的基于MySQL的云数据库

C.从数据模型的角度来说，云数据库并非一种全新的数据库技术

D.云数据库并没有专属于自己的数据模型

9、UMP系统架构设计遵循了以下哪些原则？

A.保持单一的系统对外入口，并且为系统内部维护单一的资源池

B.消除单点故障，保证服务的高可用性

C.保证系统具有良好的可伸缩，能够动态地增加、删减计算与存储节点

D.保证分配给用户的资源也是弹性可伸缩的

10、UMP系统架构依赖的哪些开源组件？

A.MnesiA

B.LVS

C.RABBitMQ

D.ZooKeeper

形考任务3

一、单选题

1、下列传统并行计算框架，说法错误的是哪一项？

A.刀片服务器、高速网、SAN，价格贵，扩展性差上

B.共享式（共享内存/共享存储），容错性好

C.编程难度高

D.实时、细粒度计算、计算密集型

2、下列关于MApReDuCe模型的描述，错误的是哪一项？

A.MApReDuCe采用“分而治之”策略

B.MApReDuCe设计的一个理念就是“计算向数据靠拢”

C.MApReDuCe框架采用了MA.ster/SlAve架构

D.MApReDuCe应用程序只能用JAvA来写

3、HADoop1.0的核心组件仅指MApReDuCe和HDFS，不包括HADoop生态系统内的Pig、Hive、HBAZe等其他组件，下列哪项是它的不足？

A.抽象层次高

B.表达能力有限，抽象层次低，需人工编码

C.价格昂贵

D.可维护性低

4、下面哪个选项不属于HADoop1.0的问题？

A.单一名称节点，存在单点失效问题

B.单一命名空间，无法实现资源隔离

C.资源管理效率低

D.很难上手

5、下列有关Hive和ImpAlA的对比错误的是:

A.Hive与ImpAlA使用相同的元数据

B.Hive与ImpAlA中对SQL的解释处理比较相似，都是通过词法分析生成执行计划

C.Hive适合于长时间的批处理查询分析，而ImpA.lA.适合于实时交互式SQL查询

D.Hive在内存不足以存储所有数据时，会使用外存，而ImpAlA也是如此

6、下列关于Hive基本操作命令的解释错误的是:

A.CreAteDAtABAseuserDB;//创建数据库userDB

B.CreAtetABleifnotexistsusriDBigint,nAmestring,Ageint;//如果usr表不存在，创建表usr，含三个属性iD,nAme,Age

C.loADDAtAloCAlinpAth‘/usr/loCAl/DAtA’overwriteintotABleusr;//把目录’/usr/loCAl/DAtA’下的数据文件中的数据以追加的方式装载进usr表

D.insertoverwritetABlestuDentseleCt*fromuserwhereAge>10;//向表usr1中插入来自usr表的A.ge大于10的数据并覆盖stuDent表中原有数据

7、下面哪个不可能是Hive的执行引擎：

A.MApReDuCe

B.Tez

C.Storm

D.Spark

8、下列关于Spark的描述，错误的是哪一项？

A.Spark最初由美国加州伯克利大学UCBerkeley的AMP实验室于2009年开发

B.Spark在2014年打破了HAdoop保持的基准排序纪录.

C.Spark用十分之一的计算资源，获得了比HADoop快3倍的速度

D.Spark运行模式单一

9、下列关于SpArk的描述，错误的是哪一项？

A.使用DAG执行引擎以支持循环数据流与内存计算析

B.可运行于独立的集群模式中，可运行于HADoop中，也可运行于AmAzonEC2等云环境中

C.支持使用SCAlA、JAvA、Python和R语言进行编程，但是不可以通过SpArkShell进行交互式编程

D.可运行于独立的集群模式中，可运行于HADoop中，也可运行于AmAzonEC2等云环境中

10、下列关于SCAlA特性的描述，错误的是哪一项？

A.SCAlA语法复杂，但是能提供优雅的API计算

B.SCAlA具备强大的并发性，支持函数式编程，可以更好地支持分布式系统

C.SCAlA兼容JAvA，运行速度快，且能融合到HADoop生态圈中

D.SCAlA是SpArk的主要编程语言

二、多选题

1、MApReDuCe相较于传统的并行计算框架有什么优势？

A.非共享式，容错性好

B.普通PC机，便宜，扩展性好

C.编程简单，只要告诉MApReDuCe做什么即可

D.批处理、非实时、数据密集型

2、MApReDuCe体系结构主要由以下那几个部分构成？

A.Client

B.JoBTrACker

C.TAskTrACker

D.TAsk

3、下列关于MApReDuCe的体系结构的描述，说法正确的有？

A.用户编写的MApReDuCe程序通过C.lient提交到JoBTrACker端

B.JoBTrACker负责资源监控和作业调度

C.TAskTrACker监控所有TAskTrACker与JoB的健康状况

D.TAskTrACker使用“slot”等量划分本节点上的资源量CPU、内存等

4、下列选项中，哪些属于HADoop1.0的核心组件的不足之处？

A.实时性（差适合批处理，不支持实时交互式）

B.资源浪费（MAp和ReDuCe分两阶段执行）

C.执行迭代操作效率低

D.难以看到程序整体逻辑

5、HADoop的优化与发展主要体现在哪几个方面？

A.HADoop自身核心组件MApReDuCe的架构设计改进

B.HADoop自身核心组件HDFS的架构设计改进

C.HADoop生态系统其它组件的不断丰富

D.HADoop生态系统减少不必要的组件，整合系统

6、下列哪些属于HADoop2.0相对于HADoop1.0的改进？

A.设计了HDFSHA

B.提供名称节点热备机制

C.设计了HDFSFeDerAtion，管理多个命名空间

D.设计了新的资源管理框架YARN

7、下列说法正确的是：

A.数据仓库Hive不需要借助于HDFS就可以完成数据的存储

B.ImpAlA和Hive、HDFS、HBAse等工具可以统一部署在一个HADoop平台上

C.Hive本身不存储和处理数据，依赖HDFS存储数据，依赖MA.pReDuCe处理数据

D.HiveQL语法与传统的SQL语法很相似

8、ImpAlA主要由哪几个部分组成:

A.ImpAlAD.

B.StAteStore

C.CLI

D.Hive

9、SpArk具有以下哪几个主要特点？

A.运行速度快

B.容易使用

C.通用性

D.运行模式单一

10、SCAlA具有以下哪几个主要特点？

A.SCAlA的优势是提供了REPL（ReAD-EvAl-PrintLoop，交互式解释器），提高程序开发效率

B.SCAlA兼容JAvA，运行速度快，且能融合到HADoop生态圈中

C.SCAlA具备强大的并发性，支持函数式编程

D.SCAlA可以更好地支持分布式系统

形考任务4

一、单选题

1、下列关于流计算的说法，哪项是错误的？

A.实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息

B.流计算秉承一个基本理念，即数据的价值随着时间的流逝而降低

C.对于一个流计算系统来说，它应该支持TB级甚至是PB级的数据规模

D.流计算只需要保证较低的延迟时间，即只达到秒级别即可处理一切问题

2、下列关于数据处理流程，说法有误的是？

A.在传统的数据处理流程中，存储的数据是旧的

B.在传统的数据处理流程中，需要用户主动发出查询来获取结果

C.传统的数据处理流程，需要先采集数据并存储在关系数据库等数据管理系统中

D.流计算的处理流程一般包含三个阶段：

数据实时采集、数据批量计算、实时查询服务

3、下面描述错误的是：

A.Storm虽然可以做到低延迟，但是无法实现高吞吐，也不能在故障发生时准确地处理计算状态

B.SpArkStreAming通过采用微批处理方法实现了高吞吐和容错性，但是牺牲了低延迟和实时处理能力

C.Flink实现了GoogleDAtAflow流计算模型，是一种兼具高吞吐、低延迟和高性能的实时流计算框架，并且同时支持批处理和流处理

D.SpArkStreAming可以实现毫秒级响应，而Flink只能实现秒级响应

4、以下哪个不属于事件驱动型应用？

A.反欺诈

B.异常检测

C.基于规则的报警

D.消费者技术中的实时数据即席分析

5、下列关于图结构数据的描述，错误的是？

A.许多非图结构的大数据，通常会被转换为关系模型后进行分析

B.许多大数据都是以大规模图或网络的形式呈现

C.图数据结构很好地表达了数据之间的关联性

D.关联性计算是大数据计算的核心

6、在Pregel计算模型中，图中的每个顶点会对应一个计算单元，下列哪一项不属于计算单元的成员变量？

A.顶点值VertexvAlue：

顶点对应的PR值

B.出射边OuteDge：

只需要表示一条边，可以不取值

C.消息MessAge：

传递的消息

D.入射边IuteDge：

只需要表示一条边，可以不取值

7、下列关于数据可视化的描述，哪个是错误的？

A.数据可视化是指将大型数据集中的数据以图形图像形式表示

B.利用数据分析和开发工具发现其中未知信息的处理过程

C.数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示

D.将数据的各个属性值以一维数据的形式表示

8、下列哪个不属于可视化工具？

A.GoogleChartAPI

B.D3

C.Visually

D.Spark

9、下面关于UserCF算法和ItemCF算法的对比，哪个是错误的？

A.UserCF算法的推荐更偏向社会化：

适合应用于新闻推荐、微博话题推荐等应用场景，其推荐结果在新颖性方面有一定的优势

B.ItemCF算法的推荐更偏向于个性化

C.ItemCF随着用户数目的增大，用户相似度计算复杂度越来越高

D.UserCF推荐结果相关性较弱，难以对推荐结果作出解释，容易受大众影响而推荐热门物品

10、下列关于推荐系统的描述，哪一项是错误的？

A.推荐系统是大数据在互联网领域的典型应用

B.推荐系统是自动联系用户和物品的一种工具

C.推荐系统可以创造全新的商业和经济模式，帮助实现长尾商品的销售

D.推荐系统分为基于物品的协同过滤和基于商家的协同过滤

二、多选题

1、流数据具有以下哪些特征？

A.数据快速持续到达，潜在大小也许是无穷无尽的

A.数据来源众多，格式复杂

B.注重数据的整体价值，不过分关注个别数据

C.系统可以控制将要处理的新到达的数据元素的顺序

2、下列关于批量计算和实时计算的说法，正确的有？

A.批量计算：

充裕时间处理静态数据，如HADoop

B.静态数据不适合采用批量计算，因为它不适合用传统的关系模型建模

C.流数据必须采用实时计算

D.流数据的响应时间一般为秒级，甚至需要毫秒级

3、企业数据架构的典型形式包括：

A.传统数据处理架构

B.大数据LAmBDA架构

C.流处理架构

D.循环处理架构

4、Flink的优势包括：

A.同时支持高吞吐、低延迟、高性能

B.同时支持流处理和批处理

C.支持有状态计算

D.具有独立的内存管理

5、很多传统的图计算算法都存在以下哪些典型问题？

A.常常表现出比较差的内存访问局部性

B.针对单个顶点的处理工作过少

C.计算过程中伴随着并行度的改变

D.计算过程简易

6、针对大型图比如社交网络和网络图的计算问题，哪些说法是正确的？

A.为特定的图应用定制相应的分布式实现：

通用性不好

B.基于现有的分布式计算平台进行图计算：

在性能和易用性方面往往无法达到最优

C.使用单机的图算法库，但是，在可以解决的问题的规模方面具有很大的局限性

D.使用已有的并行图计算系统，但是，对大规模分布式系统非常重要的一些方面比如（容错），无法提供较好的支持

7、在大数据时代，可视化技术可以支持实现哪些目标？

A.观测、跟踪数据

B.分析数据

C.辅助理解数据

D.增强数据吸引力

8、信息图表是信息、数据、知识等的视觉化表达，下列哪个说法正确？

A.谷歌公司的制图服务接口GoogleChArtAPI，可以用来为统计数据并自动生成图片

B.D3是最流行的可视化库之一，是一个用于网页作图、生成互动图形的JAvASCript函数库

C.EChArts是由百度公司前端数据可视化团队研发的图表库，可以流畅地运行在PC和移动设备上

D.大数据魔镜是一款优秀的国产数据分析软件，它丰富的数据公式和算法可以让用户真正理解探索分析数据

9、下列哪些属于大数据应用？

A.推荐系统：

为用户推荐相关商品

B.物流：

基于大数据和物联网技术的智能物流

C.智能交通：

利用交通大数据，实现交通实时监控

D.汽车：

无人驾驶汽车，实时采集车辆各种行驶数据和周围环境

10、下列关于推荐系统集群的描述，哪些是正确的？

A.为了让用户从海量信息中高效地获得自己所需的信息，推荐系统应运而生

B.推荐系统是大数据在互联网领域的典型应用

C.推荐系统是自动联系用户和物品的一种工具

D.推荐系统是利用大数据调整线下门店布局、控制店内人流量

展开阅读全文