ImageVerifierCode 换一换
格式:DOCX , 页数:8 ,大小:18.79KB ,
资源ID:4051304      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-4051304.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(大数据试题Word格式文档下载.docx)为本站会员(b****1)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

大数据试题Word格式文档下载.docx

1、B hadoop-env.sh C hadoop-site.xml D configuration.xs2、下面哪个程序负责 HDFS 数据存储。(C)A)NameNodeB)JobtrackerC)DatanodeD)secondaryNameNode3、下列关于Hadoop API的说法错误的是(A) A Hadoop的文件API不是通用的,只用于HDFS文件系统 B Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的 C FileStatus对象存储文件和目录的元数据 D FSDataInputStream是java.io.DataInputStream的子类

2、4、HDfS 中的 block 默认保存几份? (A)A)3 份 B)2 份 C)1 份 D)不确定5、为销售报表展示开发一个MapReduce作业,Mapper输入数据的Key是年份(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的数据类型?(D) A. JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClass B. HADOOP_MAP_DATATYPES环境变量 C. 随作业一起提交的mapper-specification.xml文件 D. InputFormat格式类6、HDFS无

3、法高效存储大量小文件,想让它能处理好小文件,比较可行的改进策略不包括(D) A. 利用SequenceFile、MapFile、Har等方式归档小文件 B. 多Master设计 C. Block大小适当调小 D. 调大namenode内存或将文件系统元数据存到硬盘里7、下列哪个程序通常与NameNode 在一个节点启动?(D)a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker8、下面与 HDFS 类似的框架是?(A) NTFS(B) FAT32(C) GFS(D) EXT39 、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的

4、,默认的最基本的存储单位是64M,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是(C) A一次写入,少次读写 B多次写入,少次读写 C一次写入,多次读写 D多次写入,多次读写10、HBase中的批量加载底层使用(A)实现。A MapReduceB HiveC CoprocessorD Bloom Filter三、简答题(将正确的答案写入答题纸中。每题5分,共20分)1、简述下HDFS 数据读流程;答:步骤如下,能大致描述清楚流程,没有关键错误即可1、跟namenode通信查询元数据(block所在的datanode节点),找到文件块所在的datanode服务器 2、挑选一台

5、datanode(就近原则,然后随机)服务器,请求建立socket流 3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验) 4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件,后面的block块就相当于是append到前面的block块最后合成最终需要的文件。2、如何查看hadoop 进程并列出hadoop的几个进程名使 用jps命令可查看hadoop进程。 Namenode, SecondaryNameNode,Datanode ,ResourceManager, NodeManager 3、请简述MapReduce中combiner、p

6、artition的作用 答: combiner:有时一个map可能会产生大量的输出,combiner的作用是在map端对输出先做一次合并,以减少网络传输到reducer的数量。注意:mapper的输出为combiner的输入,reducer的输入为combiner的输出。partition:把map任务输出的中间结果按照key的范围划分成R份(R是预先定义的reduce任务的个数),划分时通常使用hash函数,如:hash(key) mod R这样可以保证一段范围内的key,一定会由一个reduce任务来处理。4、HBase的检索支持3种方式是哪些?(1) 通过单个Rowkey访问,即按照某个

7、Rowkey键值进行get操作,这样获取唯一一条记录;(2) 通过Rowkey的range进行scan,即通过设置startRowKey和endRowKey,在这个范围内进行扫描。这样可以按指定的条件获取一批记录;(3) 全表扫描,即直接扫描整张表中所有行记录。四、程序题(将正确的答案写入答题纸中。每题10分,共20分)1、以一段文本作为输入对象,写一个WordCount程序。例如文本数据的情况如下统计出文本中每个单词出现的次数,输出结果如下面例子所示public class WordCount public static class TokenizerMapper extends Mappe

8、r private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context ) throws IOException, InterruptedException StringTokenizer itr = new StringTokenizer(value.toString(); while (itr.hasMoreTokens() word.set(itr.nextToke

9、n(); context.write(word, one); public static class IntSumReducer extends Reducer private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable values, Context context int sum = 0; for (IntWritable val : values) sum += val.get(); result.set(sum); context.write(key, result); pu

10、blic static void main(String args) throws Exception Configuration conf = new Configuration(); Job job = Job.getInstance(conf, word count); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class

11、); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args0); FileOutputFormat.setOutputPath(job, new Path(args1); System.exit(job.waitForCompletion(true) ? 0 : 1);2、写一段代码,利用Java api操作HDFS文件系统,实现文件的上传和下载,Hadoop文件系统地址为 hdfs:/hadoo

12、p:8020 ,将本地hadoop.txt文件上传至根目录下的hadoop文件夹中,将HDFS中hadoop文件中的hadoop1.txt 下载到本地public class App public static final String HDFS_PATH = hdfs:8020; /创建FileSystem Configuration configuration = new Configuration(); FileSystem fileSystem = FileSystem.get(new URI(HDFS_PATH), configuration, hadoop /文件上传 Path l

13、ocalPath = new Path(hadoop.txt Path hdfsPath = new Path(/hadoop fileSystem.copyFromLocalFile(localPath, hdfsPath); /文件下载 hdfsPath = new Path(/hadoop/hadoop1.txt localPath = new Path(hadoop1.txt fileSystem.copyToLocalFile(hdfsPath, localPath);五、分析题(将正确的答案写入答题纸中。每题20分,共20分)1、有如下一个场景,有一个1G大小的一个文件,里面每一行

14、是一个词,词的大小不超过16字节,内存限制大小是1M,要求返回频数最高的100个词,写出解决问题主要思路。主要考察map 和reduce的运用分析,能体现出这几点即可得分Step1:顺序读文件中,对于每个词x,取hash(x)%5000,然后按照该值存到5000个小文件(记为f0 ,f1 ,. ,f4999)中,这样每个文件大概是200k左右,如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M;Step2:对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100词及相应的频率存入文件,这样又得到了5000个文件;Step3:把这5000个文件进行归并(类似与归并排序);

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2