完整版hadoop习题册.docx
《完整版hadoop习题册.docx》由会员分享,可在线阅读,更多相关《完整版hadoop习题册.docx(18页珍藏版)》请在冰点文库上搜索。
完整版hadoop习题册
第一章大数据概述
1.互联网的发展分为______个阶段。
A.一B.三C.二D.四
2.下列不属于大数据特点的是()。
A.种类和来源多样化B.数据量巨大C.分析处理速度快D.价值密度高
互联网发展的第_____个时代为智能互联网。
3.C.1.0D.2.0A.3.0B.4.0
)。
4.关于大数据叙述不正确的一项是(
+“复杂类型的数据”A.大数据=“海量数据”B.大数据是指在一定时间对内容抓取、管理和处理的数据集合C.大数据可以及时有效的分析海量的数据D.数据包括结构化数据、半结构化数据、结构化数据。
)。
5.下列数据换算正确的一项为(
A.1YB=1024EBB.1TB=1024MBC.1PB==1024EBD.1024ZB=1EB。
6.结构化数据的表现形式为______查询C.二维表D.A.文本B.视图
_________.7.结构化的数据,先有________,再有结构A.数据
结构B.数据C.内容结构D.结构内容结构化的数据,先有________,再有_________.8.结构A.数据结构数据B.结构内容C.内容D.结构_________。
9.软件是大数据的集合C.引擎D.A.核心B.部件)。
10.大数据技术不包括(
D.数据采集A.数据计算B.数据存储C.数据冗余)。
大数据的特点不包括(11.
D.C.速度快价值高数量大A.B.类型少第二章Hadoop简介
1.下列对云栈架构层数不正确的一项为________。
A.三层云栈架构
B.四层云栈架构
C.五层云栈架构
D.六层云栈架构
不是云计算三层架构的概括。
______下列2.
A.IaaSB.PaaSC.SaaPD.SaaS
3.IaaS基础设施及服务可以称为______。
A.弹性计算B.效用计算C.有效计算D.随需应用
4.四层云栈模式,是将三层模式中的_________进行分解,分为两层,一层为硬件层,一层为虚拟资源层。
A.硬件部分B.虚拟化部分C.基础设施D.平台
5.五层云栈模式,第五层为______。
A.固件/硬件层B.云基本资源层C.云应用程序层D.云软件环境层
6.大数据是_____的应用。
A.人工智能B.云计算C.物联网D.互联网
7.hadoop______中第一阶段的输出可以作为下一阶段的输入。
A.应用场景B.分布式计算C.分阶段计算D.高效处理
8..hadoop______中将海量数据分割于多个节点,由每个节点并行计算,将得到的结果归并到输出。
A.应用场景B.分布式计算C.分阶段计算D.高效处理
9.下列选项中不是hadoop特点的是_____。
A.可靠性B.扩容能力C.高效率D.成本高
10.hadoop能可靠地存储和处理_____字节数据。
A.TBB.PBC.YBD.ZB
11.hadoop集群可以用___种模式进行。
A.四B.三C.五D.二
12.hadoop集群不可以在_____________进行。
A.联机模式B.单机模式C.虚拟分布模式D.完全分布模式
13.________模式:
hadoop安装时的默认模式,不对配置文件进行修改。
A.联机B.单机C.虚拟分布D.完全分布
14.________模式:
在一台机器上用软件模拟多节点集群。
A.联机B.单机C.虚拟分布D.完全分布
15.________模式:
Hadoop安装运行在多台主机上,构成一个真实的hadoop集群,在所有的节点上都安装JDK和hadoop,相互通过高速局域网连接。
A.联机B.单机C.虚拟分布D.完全分布
16.完全分布式,各节点之间设置________,将各个从节点生成的公钥添加到主节点的信任列表。
A.SSHB.JDKC.hadoopD.HDFS
17.完全分布式,不需要修改的配置文件为_______。
A.core-site.xmlB.hdfs-site.xmlC.hadoop-env.shD.mapred-site.xml
18.HDFS架构中有两个_________。
A.DataNodesB.JobTrackeC.NameNodeD.SecondayNameNode
19.下列不是hadoop核心组件的是________。
A.JobTrackerB.TaskTrackerC.HDFSD.Hbase
20._______存储Hadoop集群中所有存储节点上的文件,为海量提供存储。
A.JobTrackerB.TaskTrackerC.HDFSD.HBase
第四章HDFS文件系统
1.___________是指跨多台计算或服务器的文件或文件夹,数据存储在多台机器而不是单台机器上。
A.分布式存储B.分页式存储C.链式存储D.顺序存储
2.下列关于hadoop系统架构叙述不正确的一项为________。
A.由一台Intelx86处理器的服务器或PC机组成。
B.部署在低成本Intel/linux硬件平台上。
C.通过高速局域网构成一个计算集群。
D.各个节点上运行Linux操作系统。
3.主节点程序__________。
A.NameNodeB.DataNodeC.SecondaryNameNodeD.Jobtracker
4.从节点程序__________。
A.NameNodeB.DataNodeC.SecondaryNameNodeD.Jobtracker
5.HDFS结构不包括________。
A.Master体系结构B.主从服务器C.元数据服务器D.存储服务器
6.HDFS分布式文件系统的特点为____________。
A.半透明性B.低可用性C.可扩展性D.支持一个应用程序并发访问
7.HDFS中的block默认保存____份。
A.3B.2C.1D.不确定
8.下列_______通常与NameNode在一个节点启动。
A.SecondaryNameNode
B.DataNode
C.TaskTracker
D.Jobtracker
9.HDFS每个文件被划分成______大小的多个block,属于同一个文件的blocks分散存储在不同DataNode上。
A.32MB
B.64MB
C.128MB
D.无法确定
10.下面哪个程序负责HDFS数据存储?
()
A.NameNode
B.JobTracker
C.DataNode
D.SecondaryNameNode
E.tasktracker
11.NameNode是HDFS系统中的管理局节点,它管理文件系统的命名空间,记录每个文件数据块在DataNode上的位置和副本信息、协调客户端对文件的访问、记录命名空间内的改动和空间本身属性的改动。
A.错误B.正确
12.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠行、高扩展性、高吞吐率等特征,适合的读写任务是________。
一次写入,少次读取A.
多次写入,少次读取B.多次写入,多次读取C.一次写入,多次读取D.。
HDFS的文件写入,正确的是_________13.关于支持多用户对同一文件的写操作A.用户可以在文件任意位置进行修改B.默认将文件复制成三份存放C.复制的文件块默认存在同一机架上D.根据文件大小和配置情况,返回部分上进行文件写入时,namenodeClient在HDFS14.
的地址信息,按顺序写入DataNode信息,谁负责将文件划分为多个Block,根据datanode块到每一个DataNodeA.ClientB.NamenodeC.DatanodeD.Secondarynamenode
15.HDFS无法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括
A.利用SequenceFile、MapFile、Har等方式归档小文件
B.多Master设计
C.Block大小适当调小
D.调大namenode内存或将文件系统元数据存到硬盘里
16.在HDFS的数据读取过程中,客服端首先调用________的实例的open()方法打开一个文件。
A.DistributedFileSystemB.FileSystemC.FSDataOutputSystemD.OutputSystem
17.在HDFS的数据读取过程中,DistributedFileSystem获取这些信息后,生成一个__________对象实例返回给客户端。
A.DistributedFileSystemB.FSDataInputSystem
C.FSDataOutputSystemD.InputSystem
18.在HDFS的数据读取过程中,客户端读取完所有数据块后,调用___________的close()接口关闭这个文件。
A.DistributedFileSystemB.FSDataInputSystem
C.FSDataOutputSystemD.InputSystem
19.在HDFS的数据写入过程中,客服端首先调用________的实例的create()方法打开一个文件。
A.DistributedFileSystemB.FileSystemC.FSDataOutputSystemD.OutputSystem
20.在HDFS的数据写入过程中,客户端写完所有数据块后,调用___________的close()方法结束这次文件写入操作。
A.DistributedFileSystemB.FSDataInputSystem
C.FSDataOutputSystemD.InputSystem
21.HDFS的错误检测不包括_________。
冗余检测D.数据错误检测C.检测B.DataNode检测A.NameNode
第五章MapReduce原理与编程
1.MapReduce应用于__________的数据处理。
A.小规模B.中小规模C.大规模D.超大规模
2.MapReduce能处理的海量数据大于______。
A.1TBB.10GBC.10TBD.1PB
3.下列关于MapReduce说法不正确的是________。
A.MapReduce是一种计算框架
B.MapReduce的核心思想是“分而治之”
C.MapReduce是一个串行的编程模型
D.MapReduce来源于Google的学术论文
4.下列关于MapReduce的特性叙述正确的一项是_________。
A.自动实现分布式串行计算
B.自动实现分页式并行计算
C.容错,提供状态监控工具
D.不容错,提供状态监控工具
5.在分布式并行计算体系中,________采用一个指令流处理单个数据流。
A.SISDB.SIMDC.MISDD.MIMD
6.在分布式并行计算体系中,________采用多个指令流同时处理多个数据流。
A.SISDB.SIMDC.MISDD.MIMD
7.关于集群的特点下列叙述正确的一项是_________。
A.系统吞吐量小B.可靠性高C.扩展性弱D.性价比低
8.下列关于MapReduce的基本思想叙述不正确的一项是_________。
A.对相互间具有计算机以来关系的大数据进行分而治之。
B.用Map和Reduce两个函数提供了高层并行编程抽象模型。
C.提供了同一框架
D.为程序员隐藏系统细节
9.下列关于MPI叙述不正确的一项是________。
A.MPI是一个信息传递应用程序的接口
B.MPI程序经常在共享内存的机器上使用
C.MPI并行计算增加高层并行编程模型
D.MPI缺少统一的计算框架支持
10.下列关于MapReduce计算原理叙述不正确的一项是________。
A.将大数据集划分为小数据集,小数据集划分为更小数据集
B.将最终划分的小数据分发布到集群节点上
C.以串行的方式完成计算处理
D.将计算结果递归融汇,得到最后的结果
11.下列关于Map/Reduce并行计算模型叙述正确的一项为________。
A.Map/Reduce把待处理的数据集分割成许多大的数据块
B.大数据块经Map()函数并行处理后输出新的中间结果
C.reduce()函数把多任务处理后的中间结果进行汇总
D.reduce阶段的作用接受来自输出列表的迭代器
的软件模块。
hadoop组件属于_________计算架构中,MapReduce在12.
A.ClientB.JobTrackerC.TaskTrackerD.Task
13.在MapReduce计算架构中,_________组件运行在NameNode节点上,提供集群资源的分配和工作调度管理。
A.ClientB.JobTrackerC.TaskTrackerD.Task
14.在MapReduce计算架构中,_________组件运行在DataNode上,具体管理本节点计算任务的执行。
A.ClientB.JobTrackerC.TaskTrackerD.Task
15.下列关于JobTracker叙述不正确的一项为_________。
A.MapReduce框架的使用者
B.协调MapReduce作业
C.分配任务
D.监控任务
16.下列关于Map/Reduce计算流程叙述不正确的一项为_________。
A.Mapper读取分派给它的输出Split,并生成相应的本地缓存。
B.Mapper执行计算处理任务,将中间结果输出保存在本地缓存。
C.ApplicationMaster调度Reducer读取Mapper的中间输出文件,执行Reduce任务。
Reducer将最后结果写入输出文件保存到HDFS。
D.17.MapReduce流程有______各阶段。
A.三B.二C.四D.五
18.在MapReduce中,________阶段,Mapper执行maptask,将输出结果写入中间文件。
A.ShuffleB.MapC.ReduceD.Sort
19.在MapReduce中,________阶段,把Mapper的输出数据归并整理后分发给Reducer处理。
A.ShuffleB.MapC.ReduceD.Sort
20.在MapReduce中,________阶段,Reducer执行reducetask,将最后结果写入HDFS。
A.ShuffleB.MapC.ReduceD.Sort
第六章HBASE数据库
1.HBase依靠______存储底层数据。
A.HDFSB.HadoopC.MemoryD.MapReduce
2.HBase依赖______提供强大的计算能力。
D.MapReduceB.ChubbyC.RPCA.Zookeeper
3.HBase依赖______提供消息通信机制
A.ZookeeperB.ChubbyC.RPCD.Socket
3.下列选项中,关于HBase特性描述不正确的一项是______。
A.高可靠性B.高性能C.面向行D.可伸缩
4.HBase架构的四大组件中,_______包含访问HBase的接口。
A.ZookeeperB.MasterC.RegionServerD.Client
5.HBase架构的四大组件中,_______HBase具体对外提供服务的进程。
A.ZookeeperB.MasterC.RegionServerD.Client
6.HBase架构的四大组件中,_______分布式协调服务器。
A.ZookeeperB.MasterC.RegionServerD.Client
7.HBase架构的四大组件中,_______HBase集群的主控服务器。
ClientD.RegionServerC.B.MasterZookeeperA.
9.下列关于HBase系统分层架构叙述不正确的一项为_______。
A.HDFS提供了HBase的顶层物理存储结构
B.Hadoop平台提供了存储基础结构:
Hadoop集群及系统软件
C.客户端:
提供了数据库访问接口
D.RegionServer:
管理多个regions并提供数据访问服务
10.HFile数据格式中的KeyValue数据格式中Value部分是()。
A.拥有复杂结构的字符串
B.字符串
C.二进制数据
D.压缩数据
11.下列关于split叙述正确的一项是________。
A.当单个StoreFile大小小于一定的阙值后触发
B.把当前的Region分裂成2个子Region
C.子Region会被Master分配到不同的RegionServer上
D.是HBase提供的超载机制
12.HBase数据模型以_______的形式存储数据。
A.表B.视图C.数组D.记录
13.下列不属于HBase基本元素的一项是________。
A.表B.记录C.行键D.单元格
14.下列关于HBase数据模型叙述不正确的一项是_______。
A.表有单元格组成
B.一个表可以包含若干个列族
C.一个列族内可用列限定符来标志不同的列
D.存于表中单元的数据尚需打上时间戳
15.在HBase数据模型中,不可以作为行键的是________。
A.字符串B.整数C.二进制串D.并行化的结构
16.下列关于数据模型中行的叙述不正确的一项为_______。
A.表按照行键“逐字节排序”顺序对行进行有序化的处理
B.表内数据非常“紧密”
C.不用行的列的数目完全可以大不相同
D.可以只对一行上“锁”
17.在HBase数据模型中,列必须用______来定义。
A.键B.族C.单元格D.时间戳
18.在HBase物理存储结构中,table表中的所有行都按照_______的字典序排序。
A.ASCIIB.keyC.rowkeyD.keyrow
19.在HBase物理存储结构中,region按大小分割的,每个表一开始有________region。
A.一个B.两个C.三个D.不确定
20.________是HBase中分布式存储和负载均衡的最小单位。
A.HRegionB.StoreC.MemStoreD.StoreFile
21.客户端从Zookeeper获取Region的存储位置信息后,直接在_______上读写数据。
A.ZookeeperB.HMasterC.RegionServerD.HLog
22.将数据更新写入_______,只有其写入完成后,commit()才返回给客户端。
A.ZookeeperB.HMasterC.RegionServerD.HLog
第七章Hive数据仓库
1.Hive可以将结构化的数据文件映射成_______,并提供完整的SQL查询功能。
A.数据库表B.表单C.视图D.二维表
2.关于Hive与Pig的比较正确的一项为________。
A.Pig更适合于数据呈现的工作
B.Pig能对中小规模的数据进行迭代处理
C.Hive更适合做数据准备阶段的工作
D.Hive会按照用户所需要的形式呈现
3.Hive包括_____中连接模式。
A.二B.四C.三D.五
4._______模式,只适合于Hive简单试用及单元测试。
A.单用户模式
B.多用户模式
C.多用户远程模式
D.单用户远程模式
5._______模式,多个Hive用户通过网络连接到数据库。
A.单用户模式
B.多用户模式
C.多用户远程模式
D.单用户远程模式
6._______模式,用于非Java客户端访问元数据库,在服务器端启动一个MetaStoreServer,客户端利用Thrift协议通过MetaStoreServer访问元数据库。
A.单用户模式
B.多用户模式
C.多用户远程模式
D.单用户远程模式
第八章流计算系统
1.1988年通信领域的美国学者MonikaR.Henziger将流数据定义为“只能以事先
规定好的顺序被读取一次的数据的一个序列”。
()
A.正确B.错误
2.MapReduce批处理模型是先将数据存储于文件系统或数据库,然后对存储系统中的静态数据进行处理运算,这一步骤并不是实时在线的,因此又被称为离线批处理模式。
()
A.正确B.错误
3.流计算是在数据到达之后即进行计算处理。
A.正确B.错误
4.在流计算系统模型中,分布式系统常用____________来表征计算流程或计算模型。
A.无项循环图B.有向循环图C.无向非循环图D.有向非循环图
5.在流计算的处理模式中NativeStreamProcessingSystem基于数据读入顺序逐条进行处理,每一条数据达到即可得到及时处理。
A.正确B.错误
6.对Client/Server系统而言,_______的吞吐率是指服务器在单位时间内对所有的客户端完成的任务数。
.
A.服务器端B.客户端C.系统端D.管理员端
7.对Client/Server系统而言,_______的吞吐率是指对单个客户而言服务器在单位时间内完成的该客户提交的任务数目。
A.服务器端B.客户端C.系统端D.管理员端
8.关于Storm流计算叙述不正确的一项为________。
A.Storm是一种NativeStreamProcessingSystem,即对流数据的处理是基于每条数据进行
B.Storm其并行计算是基于有Spout和Bolt组成的有向拓扑图ToPology来实现
C.Topology:
定义了串行计算的逻辑模型(或者称抽象模型),也即从功能和架构的角度设计了计算的步骤和流程。
D.Topology里的Spout和Bolt的功能是靠worker节点上的Task来实现
9.下列不是Storm流计算的特点的是_______。
A.分布式B.实时性C.复杂性D.容错性
10.Storm的计算机体系采用了主从(Master/Slave)架构。
A.正确B.错误
11.在Storm的软件架构中,______运行在主节点上,是整个流计算集群的控制核心,总体负责topo