数据工程师培训题库文档格式.docx

资源描述

数据工程师培训题库文档格式.docx

《数据工程师培训题库文档格式.docx》由会员分享，可在线阅读，更多相关《数据工程师培训题库文档格式.docx（8页珍藏版）》请在冰点文库上搜索。

数据工程师培训题库文档格式.docx

A.Inceptorserver日志存放于各节点的/var/log/inceptorsql[x]/

B.可以通过inceptorserver4040查看SQL错误日志

C.Excutor日志存放于excutor节点的/var/log/inceptorsql[x]/

5、D．ExcutorGC日志存放于excutor节点的/var/log/inceptorsql[x]/有10G的数据，tableB有100G的数据，两个表通过共有的id列做关联查询name列，以下方式可以优化计算效率的是（）

A.select/*+MAPJOIN（a）*/,fromtableAajointableBbon=

B.select/*+MAPJOIN（b）*/,fromtableAajointableBbon=

C.建表时将tableA和tableB根据id字段分相同数量的桶

D.建表时将tableA和tableB根据name字段分相同数量的桶

6、以下属于HMaster功能的是（）

A．为RegionServer分配region

B．存储数据元信息

C．对region进行compact操作

D．管理用户对table的增删改查操作

7、Hyperbase与Inceptor的关系，描述正确的是（）

A．两者不可或缺，Inceptor保证Hyperbase的服务的正常运行

B．两者没有任何关系

C．Inceptor可以访问Hyperbase

D．两者相辅相成

8、下列创建全局索引的语句，正确的是（）

A．add_index'

t1'

index_name’,‘COMBINE_INDEX|INDEXED=f1:

q1:

9|rowKey:

rowKey:

10,UPDATE=true'

B．add_global_index'

index_name’,'

COMBINE_INDEX|INDEXED=f1:

C．add_fulltext_index'

D．create_global_index'

9、以下对流处理计算框架描述不正确的是（）

A．SparkStreaming是基于微批（batch）对数据进行处理的

B．ApacheStorm是基于时间（event）对数据进行处理的

C．TranswarpStreamSQL可基于微批或事件对数据进行处理

D．以上说法都不对

10、某交通部门通过使用流监控全市过往24小时各个卡口数据，要求每分钟更新一次，原始流为org_stream，以下实现正确的是（）

A.CREATESTREAMWINDOWtraffic_streamASSELECT*FROMoriginal_streamSTREAMw1AS（length'

minuteslide'

24'

hour）;

B.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamSTREAMWINDOWw1AS（length'

C.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamSTREAMWINDOWw1AS（length'

hourslide'

minute）;

D.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamAS（length'

secondslide'

11、Zookeeper服务描述正确的为（）

A.Zookeeper中每一个server互为leader。

B.Zookeeper中只有一个leader，并通过备份机制产生。

C.Zookeeper中不存在leader,所有server共同提供服务。

D.Zookeeper通过选举机制确定leader，有且仅有一个。

12、通过Hue修改HDFS目录或文件的权限可以通过以下哪些方式实现（）

A．Hdfs相应的权限

B．通过Hue超级用户hue登录

C．以hdfs用户登录

D．以上都可以

13、通过Oozie使用ssh，必须满足以下条件（）

A．以root用户登录各个节点

B．Oozie用户可以免密钥登录

C．Oozie用户必须要有bash权限

D.所访问必须是集群的节点

14、有关使用sqoop抽取数据的原理的描述不正确的是（）

A.sqoop在抽取数据的时候可以指定map的个数，map的个数决定在hdfs生成的数据文件的个数

B.sqoop抽取数据是个多节点并行抽取的过程，因此map的个数设置的越多性能越好

C.sqoop任务的切分是根据split字段的（最大值-最小值）/map数

D.sqoop抽取数据的时候需要保证执行当前用户有权限执行相应的操作

15、在使用sqoop连接关系型数据时，下面哪个命令可以查看关系型数据库中有哪些表？

（）

A.sqooplist-databases

--usernameroot

--password111111

B.--connectjdbc:

list-databases

-P

C.--connectjdbc:

--password-filefile:

/root/.pwd

D.--connectjdbc:

list-tables

--connectjdbc:

16、要将采集的日志数据作为kafka的数据源，则flumesink需要设置为下列哪项参数（）

A.hdfs

B.kafka

C..{topicname}

17、下列是关于flume和sqoop对比的描述，不正确的是（）

A.flume主要用来采集日志而sqoop主要用来做数据迁移

B.flume主要采集流式数据而sqoop主要用来迁移规范化数据

C.flume和sqoop都是分布式处理任务

D.flume主要用于采集多数据源小数据而sqoop用来迁移单数据源数据

18、有关Elasticsearch描述有误的一项是（）

A．它会利用多播形式发现节点。

B．主节点（masternode）通过选举方式产生。

C．主节点（masternode）进行集群的管理，只负责集群节点添加和删除。

D．主节点会去读集群状态信息，必要的时候进行恢复工作。

19、下面措施中，不能保证kafka数据可靠性的是（）

A.kafka会将所有消息持久化到硬盘中保证其数据可靠性

B.kafka通过TopicPartition设置Replication来保证其数据可靠性

C.kafka通过设置消息重发机制保证其数据可靠性

D.kafka无法保证数据可靠性

20、TDH提供哪几种认证模式？

A．所有服务使用简单认证模式——所有服务都无需认证即可互相访问

B．所有服务都启用Kerberos认证，用户要提供Kerberosprincipal和密码（或者keytab）来访问各个服务

C．所有服务都启用Kerberos同时Inceptor启用LDAP认证

D．所有服务都启用LDAP认证

21、开启LDAP后，应该使用哪个命令连接Inceptor（）

A.transwarp-t-h$ip。

B.beeline-ujdbc:

hive2:

//$ip:

10000-n$username-p$password。

C.beeline-u"

jdbc:

10000/default;

principal=hive/node1@TDH"

。

D.beeline-u"

principal=user1@TDH"

22、Inceptorserver服务无法启动时，该如何查看日志是（）

A．查看TDHmanager所在节点/var/log/inceptorsql*/目录下的日志

B．查看Inceptorserver所在节点/var/log/inceptorsql*/目录下的日志

C．查看ResourceManager所在节点/var/log/Yarn*/目录下的日志

D．查看任意节点/var/log/inceptorsql*/目录下的日志

23、现有一批数据需要进行清洗，要求对其中null通过update转换为0，删除重复的记录，添加部分新的记录，则该表应该设计为（）

A.Tex表

B.Orc表

C.Orc事务表

D.Holodesk表

24、现有一个表数据要存储在hyperbase上，并创建全文索引，原表数据10GB，HDFS配置为3副本，hyperbase压缩比例按1:

3计算，索引数据量为20GB，ES副本数为1，ES压缩比按1:

3计算，则该表需要多大的存储空间存储（）

C.30GB

D.70GB

25、下面哪些工作不属于集群预安装工作（）

A.为集群中每个节点的安装操作系统

B.选一个节点作为管理节点，修改其/etc/hosts文件

C.安装TranswarpManager管理界面

D.配置集群安全模式

【客观简答题（每题10分，共40分）】

1、请描述HDFS的高可用性实现机制：

答：

2、请列举出平台支持的5种存储格式/引擎的表，并详细描述各自的存储特点、使用场景、支持的操作以及是否支持分区分桶。

Text表：

ORC表：

事务表：

HoloDesk表：

Hyperbase表：

3、请描述一个100GB文件写入Hyperbase表的整个过程（使用bulkload方式实现）

4、写出以下场景下的优化思路

（1）、假设在Inceptor上执行任务，发现MapTask数量多、执行时间短，应采取哪种措施来提升性能？

（2）、请简述在Inceptor中大表与大表做join、大表与小表做join时分别有哪些优化手段

展开阅读全文