数据工程师培训题库文档格式.docx

上传人:b****4 文档编号:8111956 上传时间:2023-05-10 格式:DOCX 页数:8 大小:85.98KB
下载 相关 举报
数据工程师培训题库文档格式.docx_第1页
第1页 / 共8页
数据工程师培训题库文档格式.docx_第2页
第2页 / 共8页
数据工程师培训题库文档格式.docx_第3页
第3页 / 共8页
数据工程师培训题库文档格式.docx_第4页
第4页 / 共8页
数据工程师培训题库文档格式.docx_第5页
第5页 / 共8页
数据工程师培训题库文档格式.docx_第6页
第6页 / 共8页
数据工程师培训题库文档格式.docx_第7页
第7页 / 共8页
数据工程师培训题库文档格式.docx_第8页
第8页 / 共8页
亲,该文档总共8页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

数据工程师培训题库文档格式.docx

《数据工程师培训题库文档格式.docx》由会员分享,可在线阅读,更多相关《数据工程师培训题库文档格式.docx(8页珍藏版)》请在冰点文库上搜索。

数据工程师培训题库文档格式.docx

A.Inceptorserver日志存放于各节点的/var/log/inceptorsql[x]/

B.可以通过inceptorserver4040查看SQL错误日志

C.Excutor日志存放于excutor节点的/var/log/inceptorsql[x]/

5、D.ExcutorGC日志存放于excutor节点的/var/log/inceptorsql[x]/有10G的数据,tableB有100G的数据,两个表通过共有的id列做关联查询name列,以下方式可以优化计算效率的是()

A.select/*+MAPJOIN(a)*/,fromtableAajointableBbon=

B.select/*+MAPJOIN(b)*/,fromtableAajointableBbon=

C.建表时将tableA和tableB根据id字段分相同数量的桶

D.建表时将tableA和tableB根据name字段分相同数量的桶

6、以下属于HMaster功能的是()

A.为RegionServer分配region

B.存储数据元信息

C.对region进行compact操作

D.管理用户对table的增删改查操作

7、Hyperbase与Inceptor的关系,描述正确的是()

A.两者不可或缺,Inceptor保证Hyperbase的服务的正常运行

B.两者没有任何关系

C.Inceptor可以访问Hyperbase

D.两者相辅相成

8、下列创建全局索引的语句,正确的是()

A.add_index'

t1'

'

index_name’,‘COMBINE_INDEX|INDEXED=f1:

q1:

9|rowKey:

rowKey:

10,UPDATE=true'

B.add_global_index'

index_name’,'

COMBINE_INDEX|INDEXED=f1:

C.add_fulltext_index'

D.create_global_index'

9、以下对流处理计算框架描述不正确的是()

A.SparkStreaming是基于微批(batch)对数据进行处理的

B.ApacheStorm是基于时间(event)对数据进行处理的

C.TranswarpStreamSQL可基于微批或事件对数据进行处理

D.以上说法都不对

10、某交通部门通过使用流监控全市过往24小时各个卡口数据,要求每分钟更新一次,原始流为org_stream,以下实现正确的是()

A.CREATESTREAMWINDOWtraffic_streamASSELECT*FROMoriginal_streamSTREAMw1AS(length'

1'

minuteslide'

24'

hour);

B.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamSTREAMWINDOWw1AS(length'

C.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamSTREAMWINDOWw1AS(length'

hourslide'

minute);

D.CREATESTREAMtraffic_streamASSELECT*FROMoriginal_streamAS(length'

secondslide'

11、Zookeeper服务描述正确的为()

A.Zookeeper中每一个server互为leader。

B.Zookeeper中只有一个leader,并通过备份机制产生。

C.Zookeeper中不存在leader,所有server共同提供服务。

D.Zookeeper通过选举机制确定leader,有且仅有一个。

12、通过Hue修改HDFS目录或文件的权限可以通过以下哪些方式实现()

A.Hdfs相应的权限

B.通过Hue超级用户hue登录

C.以hdfs用户登录

D.以上都可以

13、通过Oozie使用ssh,必须满足以下条件()

A.以root用户登录各个节点

B.Oozie用户可以免密钥登录

C.Oozie用户必须要有bash权限

D.所访问必须是集群的节点

14、有关使用sqoop抽取数据的原理的描述不正确的是()

A.sqoop在抽取数据的时候可以指定map的个数,map的个数决定在hdfs生成的数据文件的个数

B.sqoop抽取数据是个多节点并行抽取的过程,因此map的个数设置的越多性能越好

C.sqoop任务的切分是根据split字段的(最大值-最小值)/map数

D.sqoop抽取数据的时候需要保证执行当前用户有权限执行相应的操作

15、在使用sqoop连接关系型数据时,下面哪个命令可以查看关系型数据库中有哪些表?

()

A.sqooplist-databases

--usernameroot

--password111111

B.--connectjdbc:

list-databases

-P

C.--connectjdbc:

--password-filefile:

/root/.pwd

D.--connectjdbc:

list-tables

--connectjdbc:

16、要将采集的日志数据作为kafka的数据源,则flumesink需要设置为下列哪项参数()

A.hdfs

B.kafka

C..{topicname}

17、下列是关于flume和sqoop对比的描述,不正确的是()

A.flume主要用来采集日志而sqoop主要用来做数据迁移

B.flume主要采集流式数据而sqoop主要用来迁移规范化数据

C.flume和sqoop都是分布式处理任务

D.flume主要用于采集多数据源小数据而sqoop用来迁移单数据源数据

18、有关Elasticsearch描述有误的一项是()

A.它会利用多播形式发现节点。

B.主节点(masternode)通过选举方式产生。

C.主节点(masternode)进行集群的管理,只负责集群节点添加和删除。

D.主节点会去读集群状态信息,必要的时候进行恢复工作。

19、下面措施中,不能保证kafka数据可靠性的是()

A.kafka会将所有消息持久化到硬盘中保证其数据可靠性

B.kafka通过TopicPartition设置Replication来保证其数据可靠性

C.kafka通过设置消息重发机制保证其数据可靠性

D.kafka无法保证数据可靠性

20、TDH提供哪几种认证模式?

A.所有服务使用简单认证模式——所有服务都无需认证即可互相访问

B.所有服务都启用Kerberos认证,用户要提供Kerberosprincipal和密码(或者keytab)来访问各个服务

C.所有服务都启用Kerberos同时Inceptor启用LDAP认证

D.所有服务都启用LDAP认证

21、开启LDAP后,应该使用哪个命令连接Inceptor()

A.transwarp-t-h$ip。

B.beeline-ujdbc:

hive2:

//$ip:

10000-n$username-p$password。

C.beeline-u"

jdbc:

10000/default;

principal=hive/node1@TDH"

D.beeline-u"

principal=user1@TDH"

22、Inceptorserver服务无法启动时,该如何查看日志是()

A.查看TDHmanager所在节点/var/log/inceptorsql*/目录下的日志

B.查看Inceptorserver所在节点/var/log/inceptorsql*/目录下的日志

C.查看ResourceManager所在节点/var/log/Yarn*/目录下的日志

D.查看任意节点/var/log/inceptorsql*/目录下的日志

23、现有一批数据需要进行清洗,要求对其中null通过update转换为0,删除重复的记录,添加部分新的记录,则该表应该设计为()

A.Tex表

B.Orc表

C.Orc事务表

D.Holodesk表

24、现有一个表数据要存储在hyperbase上,并创建全文索引,原表数据10GB,HDFS配置为3副本,hyperbase压缩比例按1:

3计算,索引数据量为20GB,ES副本数为1,ES压缩比按1:

3计算,则该表需要多大的存储空间存储()

A.

B.

C.30GB

D.70GB

25、下面哪些工作不属于集群预安装工作()

A.为集群中每个节点的安装操作系统

B.选一个节点作为管理节点,修改其/etc/hosts文件

C.安装TranswarpManager管理界面

D.配置集群安全模式

【客观简答题(每题10分,共40分)】

1、请描述HDFS的高可用性实现机制:

答:

2、请列举出平台支持的5种存储格式/引擎的表,并详细描述各自的存储特点、使用场景、支持的操作以及是否支持分区分桶。

Text表:

ORC表:

事务表:

HoloDesk表:

Hyperbase表:

3、请描述一个100GB文件写入Hyperbase表的整个过程(使用bulkload方式实现)

4、写出以下场景下的优化思路

(1)、假设在Inceptor上执行任务,发现MapTask数量多、执行时间短,应采取哪种措施来提升性能?

 

(2)、请简述在Inceptor中大表与大表做join、大表与小表做join时分别有哪些优化手段

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2