hadoop习题册讲解学习Word文档下载推荐.docx

资源描述

hadoop习题册讲解学习Word文档下载推荐.docx

《hadoop习题册讲解学习Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《hadoop习题册讲解学习Word文档下载推荐.docx（22页珍藏版）》请在冰点文库上搜索。

hadoop习题册讲解学习Word文档下载推荐.docx

11.大数据的特点不包括（）。

A.数量大B.类型少C.速度快D.价值高

第二章Hadoop简介

1.下列对云栈架构层数不正确的一项为。

A.三层云栈架构

B.四层云栈架构

C.五层云栈架构

D.六层云栈架构

2.下列不是云计算三层架构的概括。

A.IaaSB.PaaSC.SaaPD.SaaS

3.IaaS基础设施及服务可以称为。

A.弹性计算B.效用计算C.有效计算D.随需应用

4.四层云栈模式，是将三层模式中的进行分解，分为两层，一层为硬件层，一层为虚拟资源层

A.硬件部分B.虚拟化部分C.基础设施D.平台

5.五层云栈模式，第五层为。

A.固件/硬件层B.云基本资源层C.云应用程序层

D.云软件环境层

6.大数据是的应用。

A.人工智能B.云计算C.物联网D.互联网

7.hadoop中第一阶段的输出可以作为下一阶段的输入。

A.应用场景B.分布式计算C.分阶段计算D.高效处理

8..hadoop中将海量数据分割于多个节点，由每个节点并行计算，将得到

的结果归并到输出。

9.下列选项中不是hadoop特点的是。

A.可靠性B.扩容能力C.高效率D.成本高

10.hadoop能可靠地存储和处理字节数据。

A.TBB.PBC.YBD.ZB

11.hadoop集群可以用___种模式进行。

A.四B.三C.五D.二

12.hadoop集群不可以在进行。

A.联机模式B.单机模式C.虚拟分布模式D.完全分

布模式

13.模式：

hadoop安装时的默认模式，不对配置文件进行修改。

A.联机B.单机C.虚拟分布D.完全分布

14.模式：

在一台机器上用软件模拟多节点集群。

15.模式：

Hadoop安装运行在多台主机上，构成一个真实的hadoop集

群，在所有的节点上都安装JDK和hadoop，相互通过高速局域网连接。

16.完全分布式，各节点之间设置，将各个从节点生成的公钥添加到主

节点的信任列表。

A.SSHB.JDKC.hadoopD.HDFS

17.完全分布式，不需要修改的配置文件为。

A.core-site.xmlB.hdfs-site.xmlC.hadoop-env.sh

D.mapred-site.xml

18.HDFS架构中有两个。

A.DataNodesB.JobTrackeC.NameNode

D.SecondayNameNode

19.下列不是hadoop核心组件的是。

A.JobTrackerB.TaskTrackerC.HDFSD.Hbase

20.存储Hadoop集群中所有存储节点上的文件，为海量提供存储。

A.JobTrackerB.TaskTrackerC.HDFSD.HBase

第四章HDFS文件系统

1.是指跨多台计算或服务器的文件或文件夹，数据存储在多台机器

而不是单台机器上。

A.分布式存储B.分页式存储C.链式存储D.

顺序存储

2.下列关于hadoop系统架构叙述不正确的一项为。

A.由一台Intelx86处理器的服务器或PC机组成。

B.部署在低成本Intel/linux硬件平台上。

C.通过高速局域网构成一个计算集群。

D.各个节点上运行Linux操作系统。

3.主节点程序。

A.NameNodeB.DataNodeC.SecondaryNameNode

D.Jobtracker

4.从节点程序。

5.HDFS结构不包括。

A.Master体系结构B.主从服务器C.元数据服务器

D.存储服务器

6.HDFS分布式文件系统的特点为。

A.半透明性B.低可用性C.可扩展性D.支持一个应用

程序并发访问

7.HDFS中的block默认保存份。

A.3B.2C.1D.不确定

8.下列通常与NameNode在一个节点启动。

A.SecondaryNameNode

B.DataNode

C.TaskTracker

9.HDFS每个文件被划分成大小的多个block，属于同一个文件的blocks

分散存储在不同DataNode上。

A.32MB

B.64MB

C.128MB

D.无法确定

10.下面哪个程序负责HDFS数据存储？

（）

A.NameNode

B.JobTracker

C.DataNode

D.SecondaryNameNode

E.tasktracker

11.NameNode是HDFS系统中的管理局节点，它管理文件系统的命名空间，记录每个文件数据块在DataNode上的位置和副本信息、协调客户端对文件的访问、记录命名空间内的改动和空间本身属性的改动。

A.错误B.正确

12.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠行、高扩展性、高吞吐率等特征，适合的读写任务是。

A.一次写入，少次读取

B.多次写入，少次读取

C.多次写入，多次读取

D.一次写入，多次读取

13.关于HDFS的文件写入，正确的是。

A.支持多用户对同一文件的写操作

B.用户可以在文件任意位置进行修改

C.默认将文件复制成三份存放

D.复制的文件块默认存在同一机架上

14.Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块

A.Client

B.Namenode

C.Datanode

D.Secondarynamenode

15.HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括

A．利用SequenceFile、MapFile、Har等方式归档小文件

B．多Master设计

C．Block大小适当调小

D．调大namenode内存或将文件系统元数据存到硬盘里

16.在HDFS的数据读取过程中，客服端首先调用的实例的open（）方法

打开一个文件。

A.DistributedFileSystemB.FileSystemC.FSDataOutputSystemD.OutputSystem

17.在HDFS的数据读取过程中，DistributedFileSystem获取这些信息后，生成一个对象实例返回给客户端。

A.DistributedFileSystemB.FSDataInputSystem

C.FSDataOutputSystemD.InputSystem

18.在HDFS的数据读取过程中，客户端读取完所有数据块后，调用

的close（）接口关闭这个文件。

19.在HDFS的数据写入过程中，客服端首先调用的实例的create（）方法

20.在HDFS的数据写入过程中，客户端写完所有数据块后，调用

的close（）方法结束这次文件写入操作。

A.DistributedFileSystem

B.FSDataInputSystem

C.FSDataOutputSystem

D.InputSystem

21.HDFS的错误检测不包括。

A.NameNode检测B.DataNode检测

C.数据错误检测

D.冗余检测

第五章MapReduce原理与编程

1.MapReduce应用于的数据处理。

A.小规模B.中小规模C.大规模D.超大规模

2.MapReduce能处理的海量数据大于。

A.1TBB.10GBC.10TBD.1PB

3.下列关于MapReduce说法不正确的是。

A.MapReduce是一种计算框架

B.MapReduce的核心思想是“分而治之”

C.MapReduce是一个串行的编程模型

D.MapReduce来源于Google的学术论文

4.下列关于MapReduce的特性叙述正确的一项是。

A.自动实现分布式串行计算

B.自动实现分页式并行计算

C.容错，提供状态监控工具

D.不容错，提供状态监控工具

5.在分布式并行计算体系中，采用一个指令流处理单个数据流。

A.SISDB.SIMDC.MISDD.MIMD

6.在分布式并行计算体系中，采用多个指令流同时处理多个数据流。

7.关于集群的特点下列叙述正确的一项是。

A.系统吞吐量小B.可靠性高C.扩展性弱D.性价比

低

8.下列关于MapReduce的基本思想叙述不正确的一项是

A.对相互间具有计算机以来关系的大数据进行分而治之。

B.用Map和Reduce两个函数提供了高层并行编程抽象模型。

C.提供了同一框架

D.为程序员隐藏系统细节

9.下列关于MPI叙述不正确的一项是。

A.MPI是一个信息传递应用程序的接口

B.MPI程序经常在共享内存的机器上使用

C.MPI并行计算增加高层并行编程模型

D.MPI缺少统一的计算框架支持

10.下列关于MapReduce计算原理叙述不正确的一项是。

A.将大数据集划分为小数据集，小数据集划分为更小数据集

B.将最终划分的小数据分发布到集群节点上

C.以串行的方式完成计算处理

D.将计算结果递归融汇，得到最后的结果

11.下列关于Map/Reduce并行计算模型叙述正确的一项为。

A.Map/Reduce把待处理的数据集分割成许多大的数据块

B.大数据块经Map（）函数并行处理后输出新的中间结果

C.reduce（）函数把多任务处理后的中间结果进行汇总

D.reduce阶段的作用接受来自输出列表的迭代器

12.在MapReduce计算架构中，组件属于hadoop的软件模块。

A.ClientB.JobTrackerC.TaskTrackerD.Task

13.在MapReduce计算架构中，组件运行在NameNode节点上，提供

集群资源的分配和工作调度管理。

14.在MapReduce计算架构中，组件运行在DataNode上，具体管理

本节点计算任务的执行。

15.下列关于JobTracker叙述不正确的一项为。

A.MapReduce框架的使用者

B.协调MapReduce作业

C.分配任务

D.监控任务

16.下列关于Map/Reduce计算流程叙述不正确的一项为。

A.Mapper读取分派给它的输出Split，并生成相应的本地缓存。

B.Mapper执行计算处理任务，将中间结果输出保存在本地缓存。

C.ApplicationMaster调度Reducer读取Mapper的中间输出文件，执行Reduce任务。

D.Reducer将最后结果写入输出文件保存到HDFS。

17.MapReduce流程有各阶段。

A.三B.二C.四D.五

18.在MapReduce中，阶段，Mapper执行maptask，将输出结果写入

中间文件。

A.ShuffleB.MapC.ReduceD.Sort

19.在MapReduce中，阶段，把Mapper的输出数据归并整理后分发给

Reducer处理。

20.在MapReduce中，阶段，Reducer执行reducetask，将最后结果写

入HDFS。

A.Shuffle

B.Map

C.Reduce

D.Sort

第六章HBASE数据库

1.HBase依靠

__存储底层数据。

A.HDFS

B.Hadoop

C.Memory

D.MapReduce

2.HBase依赖

__提供强大的计算能力。

A.Zookeeper

MapReduce

B.Chubby

C.RPC

3.HBase依赖___

___提供消息通信机制

Socket

3.下列选项中，关于

HBase特性描述不正确的一项是

。

A.高可靠性

B.高性能

C.面向行

D.可伸缩

4.HBase架构的四大组件中，包含访问HBase的接口。

A.ZookeeperB.MasterC.RegionServerD.

Client

5.HBase架构的四大组件中，HBase具体对外提供服务的进程。

A.ZookeeperB.MasterC.RegionServerD.

6.HBase架构的四大组件中，分布式协调服务器。

7.HBase架构的四大组件中，HBase集群的主控服务器。

9.下列关于HBase系统分层架构叙述不正确的一项为。

A.HDFS提供了HBase的顶层物理存储结构

B.Hadoop平台提供了存储基础结构：

Hadoop集群及系统软件

C.客户端：

提供了数据库访问接口

D.RegionServer：

管理多个regions并提供数据访问服务

10.HFile数据格式中的KeyValue数据格式中Value部分是（）

A.拥有复杂结构的字符串

B.字符串

C.二进制数据

D.压缩数据

11.下列关于split叙述正确的一项是。

A.当单个StoreFile大小小于一定的阙值后触发

B.把当前的Region分裂成2个子Region

C.子Region会被Master分配到不同的RegionServer上

D.是HBase提供的超载机制

12.HBase数据模型以的形式存储数据。

A.表B.视图C.数组D.记录

13.下列不属于HBase基本元素的一项是。

A.表B.记录C.行键D.单元格

14.下列关于HBase数据模型叙述不正确的一项是。

A.表有单元格组成

B.一个表可以包含若干个列族

C.一个列族内可用列限定符来标志不同的列

D.存于表中单元的数据尚需打上时间戳

15.在HBase数据模型中，不可以作为行键的是。

A.字符串B.整数C.二进制串D.并行化的结构

16.下列关于数据模型中行的叙述不正确的一项为。

A.表按照行键“逐字节排序”顺序对行进行有序化的处理

B.表内数据非常“紧密”

C.不用行的列的数目完全可以大不相同

D.可以只对一行上“锁”

17.在HBase数据模型中，列必须用来定义。

A.键B.族C.单元格D.时间戳

18.在HBase物理存储结构中，table表中的所有行都按照的字典序排

序。

B.keyC.rowkeyD.keyrow

region按大小分割的，每个表一开始有

region。

A.一个B.两个C.三个D.不确定

20.是HBase中分布式存储和负载均衡的最小单位。

A.HRegionB.StoreC.MemStoreD.StoreFile

21.客户端从Zookeeper获取Region的存储位置信息后，直接在上读写

数据。

A.ZookeeperB.HMasterC.RegionServerD.HLog

22.将数据更新写入，只有其写入完成后，commit（）才返回给客户端。

第七章Hive数据仓库

1.Hive可以将结构化的数据文件映射成，并提供完整的SQL查询功

能。

A.数据库表B.表单C.视图D.二维表

2.关于Hive与Pig的比较正确的一项为。

A.Pig更适合于数据呈现的工作

B.Pig能对中小规模的数据进行迭代处理

C.Hive更适合做数据准备阶段的工作

D.Hive会按照用户所需要的形式呈现

3.Hive包括中连接模式。

A.二B.四C.三D.五

4.模式，只适合于Hive简单试用及单元测试。

A.单用户模式

B.多用户模式

C.多用户远程模式

D.单用户远程模式

5.模式，多个Hive用户通过网络连接到数据库。

6.模式，用于非Java客户端访问元数据库，在服务器端启动一个

MetaStoreServer，客户端利用Thrift协议通过MetaStoreServer访问元数据库。

第八章流计算系统

1.1988年通信领域的美国学者MonikaR.Henziger将流数据定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。

（）

A.正确B.错误

2.MapReduce批处理模型是先将数据存储于文件系统或数据库，然后对存储系统中的静态数据进行处理运算，这一步骤并不是实时在线的，因此又被称为离线批处理模式。

3.流计算是在数据到达之后即进行计算处理。

4.在流计算系统模型中，分布式系统常用来表征计算流程或计算

模型。

A.无项循环图B.有向循环图C.无向非循环图D.有向非

循环图

5.在流计算的处理模式中NativeStreamProcessingSystem基于数据读入顺序逐条进行处理，每一条数据达到即可得到及时处理。

6.对Client/Server系统而言，的吞吐率是指服务器在单位时间内对所有

的客户端完成的任务数。

A.服务器端B.客户端C.系统端

D.管理员端

7.对Client/Server系统而言，的吞吐率是指对单个客户而言服务器在单

位时间内完成的该客户提交的任务数目。

8.关于Storm流计算叙述不正确的一项为。

A.Storm是一种NativeStreamProcessingSystem，即对流数据的处理是基于每条数据进行

B.Storm其并行计算是基于有Spout和Bolt组成的有向拓扑图ToPology来实现

C.Topology：

定义了串行计算的逻辑模型（或者称抽象模型），也即从功能和架构的角度设计了计算的步骤和流程。

D.Topology里的Spout和Bolt的功能是靠worker节点上的Task来实现

9.下列不是Storm流计算的特点的是。

A.分布式B.实时性C.复杂性D.容错性

10．Storm的计算机体系采用了主从（Master/Slave）架构。

11.在Storm的软件架构中，运行在主节点上，是整个流计算集群的控制

核心，总体负责topology的提交、运行状态监控、负载均衡及任务重新分配等。

A.主控程序Nimbus

B.集群调度

展开阅读全文