大数据试题Word格式文档下载.docx-资源下载

大数据试题Word格式文档下载.docx

1、B hadoop-env.sh C hadoop-site.xml D configuration.xs2、下面哪个程序负责 HDFS 数据存储。（C）A）NameNodeB）JobtrackerC）DatanodeD）secondaryNameNode3、下列关于Hadoop API的说法错误的是（A） A Hadoop的文件API不是通用的，只用于HDFS文件系统 B Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的 C FileStatus对象存储文件和目录的元数据 D FSDataInputStream是java.io.DataInputStream的子类

2、4、HDfS 中的 block 默认保存几份? （A）A）3 份 B）2 份 C）1 份 D）不确定5、为销售报表展示开发一个MapReduce作业，Mapper输入数据的Key是年份（IntWritable），Value表示商品标识（Text）。下列哪一项决定该Mapper的数据类型？（D） A. JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClass B. HADOOP_MAP_DATATYPES环境变量 C. 随作业一起提交的mapper-specification.xml文件 D. InputFormat格式类6、HDFS无

3、法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括（D） A. 利用SequenceFile、MapFile、Har等方式归档小文件 B. 多Master设计 C. Block大小适当调小 D. 调大namenode内存或将文件系统元数据存到硬盘里7、下列哪个程序通常与NameNode 在一个节点启动？（D）a）SecondaryNameNodeb）DataNodec）TaskTrackerd）Jobtracker8、下面与 HDFS 类似的框架是？（A） NTFS（B） FAT32（C） GFS（D） EXT39 、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的

4、，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是（C） A一次写入，少次读写 B多次写入，少次读写 C一次写入，多次读写 D多次写入，多次读写10、HBase中的批量加载底层使用（A）实现。A MapReduceB HiveC CoprocessorD Bloom Filter三、简答题（将正确的答案写入答题纸中。每题5分，共20分）1、简述下HDFS 数据读流程；答：步骤如下，能大致描述清楚流程，没有关键错误即可1、跟namenode通信查询元数据（block所在的datanode节点），找到文件块所在的datanode服务器 2、挑选一台

5、datanode（就近原则，然后随机）服务器，请求建立socket流 3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验） 4、客户端以packet为单位接收，先在本地缓存，然后写入目标文件，后面的block块就相当于是append到前面的block块最后合成最终需要的文件。2、如何查看hadoop 进程并列出hadoop的几个进程名使用jps命令可查看hadoop进程。 Namenode, SecondaryNameNode，Datanode ，ResourceManager， NodeManager 3、请简述MapReduce中combiner、p

6、artition的作用答： combiner：有时一个map可能会产生大量的输出，combiner的作用是在map端对输出先做一次合并，以减少网络传输到reducer的数量。注意：mapper的输出为combiner的输入，reducer的输入为combiner的输出。partition：把map任务输出的中间结果按照key的范围划分成R份（R是预先定义的reduce任务的个数），划分时通常使用hash函数，如：hash（key） mod R这样可以保证一段范围内的key，一定会由一个reduce任务来处理。4、HBase的检索支持3种方式是哪些？（1）通过单个Rowkey访问，即按照某个

7、Rowkey键值进行get操作，这样获取唯一一条记录；（2）通过Rowkey的range进行scan，即通过设置startRowKey和endRowKey，在这个范围内进行扫描。这样可以按指定的条件获取一批记录；（3）全表扫描，即直接扫描整张表中所有行记录。四、程序题（将正确的答案写入答题纸中。每题10分，共20分）1、以一段文本作为输入对象，写一个WordCount程序。例如文本数据的情况如下统计出文本中每个单词出现的次数，输出结果如下面例子所示public class WordCount public static class TokenizerMapper extends Mappe

8、r private final static IntWritable one = new IntWritable（1）; private Text word = new Text（）; public void map（Object key, Text value, Context context ） throws IOException, InterruptedException StringTokenizer itr = new StringTokenizer（value.toString（）; while （itr.hasMoreTokens（） word.set（itr.nextToke

9、n（）; context.write（word, one）; public static class IntSumReducer extends Reducer private IntWritable result = new IntWritable（）; public void reduce（Text key, Iterable values, Context context int sum = 0; for （IntWritable val : values） sum += val.get（）; result.set（sum）; context.write（key, result）; pu

10、blic static void main（String args） throws Exception Configuration conf = new Configuration（）; Job job = Job.getInstance（conf, word count）; job.setJarByClass（WordCount.class）; job.setMapperClass（TokenizerMapper.class）; job.setCombinerClass（IntSumReducer.class）; job.setReducerClass（IntSumReducer.class

11、）; job.setOutputKeyClass（Text.class）; job.setOutputValueClass（IntWritable.class）; FileInputFormat.addInputPath（job, new Path（args0）; FileOutputFormat.setOutputPath（job, new Path（args1）; System.exit（job.waitForCompletion（true） ? 0 : 1）;2、写一段代码，利用Java api操作HDFS文件系统，实现文件的上传和下载，Hadoop文件系统地址为 hdfs:/hadoo

12、p:8020 ，将本地hadoop.txt文件上传至根目录下的hadoop文件夹中，将HDFS中hadoop文件中的hadoop1.txt 下载到本地public class App public static final String HDFS_PATH = hdfs:8020; /创建FileSystem Configuration configuration = new Configuration（）; FileSystem fileSystem = FileSystem.get（new URI（HDFS_PATH）, configuration, hadoop /文件上传 Path l

13、ocalPath = new Path（hadoop.txt Path hdfsPath = new Path（/hadoop fileSystem.copyFromLocalFile（localPath, hdfsPath）; /文件下载 hdfsPath = new Path（/hadoop/hadoop1.txt localPath = new Path（hadoop1.txt fileSystem.copyToLocalFile（hdfsPath, localPath）;五、分析题（将正确的答案写入答题纸中。每题20分，共20分）1、有如下一个场景，有一个1G大小的一个文件，里面每一行

14、是一个词，词的大小不超过16字节，内存限制大小是1M，要求返回频数最高的100个词，写出解决问题主要思路。主要考察map 和reduce的运用分析，能体现出这几点即可得分Step1：顺序读文件中，对于每个词x，取hash（x）%5000，然后按照该值存到5000个小文件（记为f0 ,f1 ,. ,f4999）中，这样每个文件大概是200k左右，如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M；Step2：对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100词及相应的频率存入文件，这样又得到了5000个文件；Step3：把这5000个文件进行归并（类似与归并排序）；

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？