Hadoop学习总结之五Hadoop的运行痕迹.docx

资源描述

Hadoop学习总结之五Hadoop的运行痕迹.docx

《Hadoop学习总结之五Hadoop的运行痕迹.docx》由会员分享，可在线阅读，更多相关《Hadoop学习总结之五Hadoop的运行痕迹.docx（29页珍藏版）》请在冰点文库上搜索。

Hadoop学习总结之五Hadoop的运行痕迹.docx

Hadoop学习总结之五Hadoop的运行痕迹

在使用hadoop的时候，可能遇到各种各样的问题，然而由于hadoop的运行机制比较复杂，因而出现了问题的时候比较难于发现问题。

本文欲通过某种方式跟踪Hadoop的运行痕迹，方便出现问题的时候可以通过这些痕迹来解决问题。

一、环境的搭建

为了能够跟踪这些运行的痕迹，我们需要搭建一个特殊的环境，从而可以一步步的查看上一节提到的一些关键步骤所引起的变化。

我们首先搭建一个拥有一个NameNode（namenode:

192.168.1.104），三个DataNode（datanode01:

192.168.1.105,datanode02:

192.168.1.106,datanode03:

192.168.1.107）的Hadoop环境，其中SecondaryNameNode和NameNode运行在同一台机器上。

对于这四台机器上的Hadoop，我们需要进行如下相同的配置：

∙NameNode，SeondaryNameNode，JobTracker都应该运行在namenode:

192.168.1.104机器上

∙DataNode，TaskTracker，以及生成的Map和Reduce的TaskJVM应该运行在datanode01,datanode02,datanode03上

∙数据共有三份备份

∙HDFS以及Map-Reduce运行的数据放在/data/hadoop/dir/tmp文件夹下

fs.default.name

hdfs:

//192.168.1.104:

9000

mapred.job.tracker

192.168.1.104:

9001

dfs.replication

hadoop.tmp.dir

/data/hadoopdir/tmp

Abaseforothertemporarydirectories.

然而由于Map-Reduce过程相对复杂，为了能够对Map和Reduce的TaskJVM进行远程的调试，从而能一步一步观察，因而对NameNode和三个DataNode有一些不同的配置：

对于NameNode:

∙设置mapred.job.reuse.jvm.num.tasks为-1，使得多个运行于同一个DataNode上的Map和Reduce的Task共用同一个JVM，从而方便对此JVM进行远程调试，并且不会因为多个TaskJVM监听同一个远程调试端口而发生冲突

∙对于mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum的配置以DataNode上的为准

∙设置io.sort.mb为1M（原来为100M），是为了在Map阶段让内存中的mapoutput尽快的spill到文件中来，从而我们可以观察map的输出

∙设置mapred.child.java.opts的时候，即设置TaskJVM的运行参数，添加远程调试监听端口8333

mapred.job.reuse.jvm.num.tasks

-1

mapred.tasktracker.map.tasks.maximum

mapred.tasktracker.reduce.tasks.maximum

io.sort.mb

mapred.child.java.opts

-Xmx200m-agentlib:

jdwp=transport=dt_socket,address=8883,server=y,suspend=y

mapred.job.shuffle.input.buffer.percent

0.001

mapred.job.shuffle.merge.percent

0.001

io.sort.factor

对于DataNode:

∙对于datanode01:

192.168.1.105，设置同时运行的maptask的个数（mapred.tasktracker.map.tasks.maximum）为1，同时运行的reducetask的个数（mapred.tasktracker.reduce.tasks.maximum）为0

∙对于datanode02:

192.168.1.106，设置同时运行的maptask的个数（mapred.tasktracker.map.tasks.maximum）为0，同时运行的reducetask的个数（mapred.tasktracker.reduce.tasks.maximum）为0

∙对于datanode02:

192.168.1.107，设置同时运行的maptask的个数（mapred.tasktracker.map.tasks.maximum）为0，同时运行的reducetask的个数（mapred.tasktracker.reduce.tasks.maximum）为1

∙之所以这样设置，是因为我们虽然可以控制多个Maptask共用同一个JVM，然而我们不能控制Maptask和ReduceTask也共用一个JVM。

从而当Maptask的JVM和ReduceTask的JVM同时在同一台机器上启动的时候，仍然会出现监听远程调用端口冲突的问题。

∙经过上面的设置，从而datanode01专门负责运行MapTask，datanode03专门负责运行ReduceTask，而datanode02不运行任何的Task，甚至连TaskTracker也不用启动了

∙对于ReduceTask设置mapred.job.shuffle.input.buffer.percent和mapred.job.shuffle.merge.percent为0.001，从而使得拷贝，合并阶段的中间结果都因为内存设置过小而写入硬盘，我们能够看到痕迹

∙设置io.sort.factor为2，使得在maptask输出不多的情况下，也能触发合并。

除了对Maptask和ReduceTask进行远程调试之外，我们还想对NameNode，SecondaryName，DataNode，JobTracker，TaskTracker进行远程调试，则需要修改一下bin/hadoop文件：

if["$COMMAND"="namenode"];then

CLASS='org.apache.hadoop.hdfs.server.namenode.NameNode'

HADOOP_OPTS="$HADOOP_OPTS$HADOOP_NAMENODE_OPTS-agentlib:

jdwp=transport=dt_socket,address=8888,server=y,suspend=n"

elif["$COMMAND"="secondarynamenode"];then

CLASS='org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode'

HADOOP_OPTS="$HADOOP_OPTS$HADOOP_SECONDARYNAMENODE_OPTS-agentlib:

jdwp=transport=dt_socket,address=8887,server=y,suspend=n"

elif["$COMMAND"="datanode"];then

CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode'

HADOOP_OPTS="$HADOOP_OPTS$HADOOP_DATANODE_OPTS-agentlib:

jdwp=transport=dt_socket,address=8886,server=y,suspend=n"

……

elif["$COMMAND"="jobtracker"];then

CLASS=org.apache.hadoop.mapred.JobTracker

HADOOP_OPTS="$HADOOP_OPTS$HADOOP_JOBTRACKER_OPTS-agentlib:

jdwp=transport=dt_socket,address=8885,server=y,suspend=n"

elif["$COMMAND"="tasktracker"];then

CLASS=org.apache.hadoop.mapred.TaskTracker

HADOOP_OPTS="$HADOOP_OPTS$HADOOP_TASKTRACKER_OPTS-agentlib:

jdwp=transport=dt_socket,address=8884,server=y,suspend=n"

在进行一切实验之前，我们首先清空/data/hadoopdir/tmp以及logs文件夹。

二、格式化HDFS

格式化HDFS需要运行命令：

bin/hadoopnamenode–format

于是打印出如下的日志：

10/11/2019:

52:

21INFOnamenode.NameNode:

STARTUP_MSG:

/************************************************************

STARTUP_MSG:

StartingNameNode

STARTUP_MSG:

host=namenode/192.168.1.104

STARTUP_MSG:

args=[-format]

STARTUP_MSG:

version=0.19.2

STARTUP_MSG:

build=https:

//svn.apache.org/repos/asf/hadoop/common/branches/branch-0.19-r789657;compiledby'root'onTueJun3012:

40:

50EDT2009

************************************************************/

10/11/2019:

52:

21INFOnamenode.FSNamesystem:

fsOwner=admin,sambashare

10/11/2019:

52:

21INFOnamenode.FSNamesystem:

supergroup=supergroup

10/11/2019:

52:

21INFOnamenode.FSNamesystem:

isPermissionEnabled=true

10/11/2019:

52:

21INFOcommon.Storage:

Imagefileofsize97savedin0seconds.

10/11/2019:

52:

21INFOcommon.Storage:

Storagedirectory/data/hadoopdir/tmp/dfs/namehasbeensuccessfullyformatted.

10/11/2019:

52:

21INFOnamenode.NameNode:

SHUTDOWN_MSG:

/************************************************************

SHUTDOWN_MSG:

ShuttingdownNameNodeatnamenode/192.168.1.104

************************************************************/

这个时候在NameNode的/data/hadoopdir/tmp下面出现如下的文件树形结构：

+-dfs

+-name

+---current

+----edits

+----fsimage

+----fstime

+----VERSION

+---image

+----fsimage

这个时候，DataNode的/data/hadoopdir/tmp中还是空的。

二、启动Hadoop

启动Hadoop需要调用命令bin/start-all.sh，输出的日志如下：

startingnamenode,loggingtologs/hadoop-namenode-namenode.out

192.168.1.106:

startingdatanode,loggingtologs/hadoop-datanode-datanode02.out

192.168.1.105:

startingdatanode,loggingtologs/hadoop-datanode-datanode01.out

192.168.1.107:

startingdatanode,loggingtologs/hadoop-datanode-datanode03.out

192.168.1.104:

startingsecondarynamenode,loggingtologs/hadoop-secondarynamenode-namenode.out

startingjobtracker,loggingtologs/hadoop-jobtracker-namenode.out

192.168.1.106:

startingtasktracker,loggingtologs/hadoop-tasktracker-datanode02.out

192.168.1.105:

startingtasktracker,loggingtologs/hadoop-tasktracker-datanode01.out

192.168.1.107:

startingtasktracker,loggingtologs/hadoop-tasktracker-datanode03.out

从日志中我们可以看出，此脚本启动了NameNode,三个DataNode，SecondaryName，JobTracker以及三个TaskTracker.

下面我们分别从NameNode和三个DataNode中运行jps-l，看看到底运行了那些java程序：

在NameNode中：

22214org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode

22107org.apache.hadoop.hdfs.server.namenode.NameNode

22271org.apache.hadoop.mapred.JobTracker

在datanode01中：

12580org.apache.hadoop.mapred.TaskTracker

12531org.apache.hadoop.hdfs.server.datanode.DataNode

在datanode02中：

10548org.apache.hadoop.hdfs.server.datanode.DataNode

在datanode03中：

12593org.apache.hadoop.hdfs.server.datanode.DataNode

12644org.apache.hadoop.mapred.TaskTracker

同我们上面的配置完全符合。

当启动了Hadoop以后，/data/hadoopdir/tmp目录也发生了改变，通过ls-R我们可以看到。

对于NameNode：

∙在name文件夹中，多了in_use.lock文件，说明NameNode已经启动了

∙多了nameseondary文件夹，用于存放SecondaryNameNode的数据

dfs

./dfs:

name namesecondary

./dfs/name:

current image in_use.lock

./dfs/name/current:

edits fsimage fstime VERSION

./dfs/name/image:

fsimage

./dfs/namesecondary:

current image in_use.lock

./dfs/namesecondary/current:

edits fsimage fstime VERSION

./dfs/namesecondary/image:

fsimage

对于DataNode:

∙多了dfs和mapred两个文件夹

∙dfs文件夹用于存放HDFS的block数据的

∙mapred用于存放Map-ReduceTask任务执行所需要的数据的。

dfs mapred

./dfs:

data

./dfs/data:

current detach in_use.lock storage tmp

./dfs/data/current:

dncp_block_verification.log.curr VERSION

./dfs/data/detach:

./dfs/data/tmp:

./mapred:

local

./mapred/local:

当然随着Hadoop的启动，logs文件夹下也多个很多的日志：

在NameNode上，日志有：

∙NameNode的日志：

ohadoop-namenode-namenode.log此为log4j的输出日志

ohadoop-namenode-namenode.out此为stdout和stderr的输出日志

∙SecondaryNameNode的日志：

ohadoop-secondarynamenode-namenode.log此为log4j的输出日志

ohadoop-secondarynamenode-namenode.out此为stdout和stderr的输出日志

∙JobTracker的日志：

ohadoop-jobtracker-namenode.log此为log4j的输出日志

ohadoop-jobtracker-namenode.out此为stdout和stderr的输出日志

在DataNode上的日志有（以datanode01为例子）：

∙DataNode的日志

ohadoop-datanode-datanode01.log此为log4j的输出日志

ohadoop-datanode-datanode01.out此为stdout和stderr的输出日志

∙TaskTracker的日志

ohadoop-tasktracker-datanode01.log此为log4j的输出日志

ohadoop-tasktracker-datanode01.out此为stdout和stderr的输出日志

下面我们详细查看这些日志中的有重要意义的信息：

在hadoop-namenode-namenode.log文件中，我们可以看到NameNode启动的过程：

Namenodeupat:

namenode/192.168.1.104:

9000

//文件的数量

Numberoffiles=0

Numberoffilesunderconstruction=0

//加载fsimage和edits文件形成FSNamesystem

Imagefileofsize97loadedin0seconds.

Editsfile/data/hadoopdir/tmp/dfs/name/current/editsofsize4edits#0loadedin0seconds.

Imagefileofsize97savedin0seconds.

FinishedloadingFSImagein12812msecs

//统计block的数量和状态

Totalnumberofblocks=0

Numberofinvalidblocks=0

Numberofunder-replicatedblocks

展开阅读全文