linux hadoop搭建手册以及三种集群模式配置Word文档格式.docx

资源描述

linux hadoop搭建手册以及三种集群模式配置Word文档格式.docx

《linux hadoop搭建手册以及三种集群模式配置Word文档格式.docx》由会员分享，可在线阅读，更多相关《linux hadoop搭建手册以及三种集群模式配置Word文档格式.docx（15页珍藏版）》请在冰点文库上搜索。

linux hadoop搭建手册以及三种集群模式配置Word文档格式.docx

SELINUX=enforcing改为SELINUX=disabled

即

然后在执行如下命令：

setenforce0

getenforce

1．3Java安装

1.3.1上传文件并授权

（1）.上传jdk文件到希望安装的路径

cpjdk-7u67-linux-x64.rpm/usr/local

chmod775jdk-7u67-linux-x64.rpm

（2）.安装jdk

rpm–ivhjdk-7u67-linux-x64.rpm

（2）.配置Java运行环境

在/etc/profile后面追加配置，具体配置如下：

exportJAVA_HOME=/usr/local/default

（4）.验证Java运行环境

1．4Hadoop安装

1.4.2安装

（1）.解压

tarzxvfhadoop-1.2.1.tar.gz

（2）.将解压之后复制到希望安装的路径

cphadoop-1.2.1/usr/local

chown–Rhadoop:

hadoophadoop-1.2.1#将文件夹"

hadoop"

读权限分配给hadoop用户

（3）.配置Hadoop运行环境

（4）.验证Hadoop运行环境

第二章．Hadoop集群配置

Hadoop集群有三种运行模式，分别为单机模式，伪分布模式，完全分布式模式。

单机模式和伪分布式模式的配置基本相同，本文档将重点介绍，在此基础上给出完全分布式模式搭建还需要的工作。

1.单机模式（只有Master节点）

单机模式是Hadoop的默认模式。

在该模式下无需运行任何守护进程，所有程序都在单个JVM上执行。

该模式主要用于开发调试MapReduce程序的应用逻辑。

2.伪分布模式（Master和Slaver在同一机器上）

在伪分布模式下，Hadoop守护进程运行在一台机器上，模拟一个小规模的集群。

该模式在单机模式的基础上增加了代码调试功能，允许你检查NameNode，DataNode，JobTracker，TaskTracker等模拟节点的运行情况。

3.完全分布式模式（存在Slaver节点和Master节点不在同一机器上）

单机模式和伪分布模式均用于开发与调试的目的。

真实Hadoop集群的运行采用的是全分布模式。

2.1配置集群模式

2.1.1修改/etc/sysconfig/network文件

2.1.2修改/etc/hosts文件

2.1.3使修改生效

2.1.4验证修改

2.2SSH无密码验证配置

2.2.1Root用户修改/etc/ssh/sshd_config文件

RSAAuthenticationyes#启用RSA认证

PubkeyAuthenticationyes#启用公钥私钥配对认证方式

AuthorizedKeysFile.ssh/authorized_keys#公钥文件路径

2.2.2配置

（1）.切换到hadoop用户

（2）.生成无密码RSA秘钥对

在Master节点上把id_rsa.pub追加到授权的key里面去（2.2.1节）

cat~/.ssh/id_rsa.pub>

~/.ssh/authorized_keys

（3）.重启SSH服务

servicesshdrestart

最好将sshd设为开机启动：

chkconfigsshd--level12345on

2.2.3.验证登陆

完全分布式模式下，Slaver节点不仅需要同样上述的操作，还需要将Master节点的~/.ssh/id_rsa.pub文件追加到自己的~/.ssh/authorized_keys文件的后面，然后Master节点还需要通过sshSlaver进行验证。

2.3修改配置文件

2.3.1配置Hadoop运行环境：

$HADOOP_HOME/conf/hadoop-env.sh

2.3.2配置HDFS

（1）.配置Hadoop核心配置文件$HADOOP_HOME/conf/core-site.xml

configuration>

property>

—Hadoop运行中所有（临时）文件的根目录-->

name>

hadoop.tmp.dir<

/name>

value>

/home/hadoop/tmp<

/value>

/property>

--NameNode的IP地址和端口号-->

fs.default.name<

hdfs:

//Master:

9000<

/configuration>

如没有配置hadoop.tmp.dir参数，此时系统默认的临时目录为：

/tmp/hadoo-hadoop。

而这个目录在每次重启后都会被干掉，必须重新执行format才行，否则会出错。

（2）.配置$HADOOP_HOME/conf/hdfs-site.xml文件

--数据副本数量，默认为3，salve少于3台会报错-->

dfs.replication<

2.3.3配置MapReduce

（1）.配置$HADOOP_HOME/conf/mapred-site.xml文件

--jobtracker交互端口,默认8021-->

mapred.job.tracker<

http:

9001<

（2）.配置$HADOOP_HOME/conf/masters文件

将localhost替换为Master

（3）.配置$HADOOP_HOME/conf/slaves文件（Master主机特有）

将所有slaver节点加入此文件

2.4启动和验证

2.4.1格式化HDFS文件系统

hadoopnamenode–format

2.4.2启动hadoop

2.4.3验证Hadoop

（1）.工具验证

（2）.用"

hadoopdfsadmin-report"

验证

（3）.网页访问验证

jobtracker的web管理地址：

Master：

50030

NameNode

web管理地址:

Master:

50070

（4）.任务验证

[hadoop@Masterfile]$moreinput1.txt

Hello,hadoop

[hadoop@Masterfile]$moreinput2.txt

Hello,welcomyou

[hadoop@Masterfile]$hadoopfs-mkdirinput

[hadoop@Masterfile]$hadoopfs-putinput*input

[hadoop@Masterfile]$hadoopfs-lsinput

Found2items

-rw-r--r--1hadoopsupergroup142013-12-2219:

21/user/hadoop/input/input1.txt

-rw-r--r--1hadoopsupergroup182013-12-2219:

21/user/hadoop/input/input2.txt

[hadoop@Masterfile]$hadoopjar/usr/local/hadoop-1.2.1/hadoop-examples-1.2.1.jarwordcountinputoutput

13/12/2219:

23:

30INFOinput.FileInputFormat:

Totalinputpathstoprocess:

30INFOutil.NativeCodeLoader:

Loadedthenative-hadooplibrary

30WARNsnappy.LoadSnappy:

Snappynativelibrarynotloaded

31INFOmapred.JobClient:

Runningjob:

job_201312221905_0001

32INFOmapred.JobClient:

map0%reduce0%

24:

09INFOmapred.JobClient:

map100%reduce0%

38INFOmapred.JobClient:

map100%reduce100%

41INFOmapred.JobClient:

Jobcomplete:

42INFOmapred.JobClient:

Counters:

JobCounters

Launchedreducetasks=1

SLOTS_MILLIS_MAPS=64814

Totaltimespentbyallreduceswaitingafterreservingslots（ms）=0

Totaltimespentbyallmapswaitingafterreservingslots（ms）=0

Launchedmaptasks=2

Data-localmaptasks=2

SLOTS_MILLIS_REDUCES=27100

FileOutputFormatCounters

BytesWritten=33

FileSystemCounters

FILE_BYTES_READ=68

HDFS_BYTES_READ=256

FILE_BYTES_WRITTEN=165724

HDFS_BYTES_WRITTEN=33

FileInputFormatCounters

BytesRead=32

Map-ReduceFramework

Mapoutputmaterializedbytes=74

Mapinputrecords=2

Reduceshufflebytes=74

SpilledRecords=10

Mapoutputbytes=52

Totalcommittedheapusage（bytes）=246685696

CPUtimespent（ms）=4350

Combineinputrecords=5

SPLIT_RAW_BYTES=224

Reduceinputrecords=5

Reduceinputgroups=4

Combineoutputrecords=5

Physicalmemory（bytes）snapshot=422400000

Reduceoutputrecords=4

Virtualmemory（bytes）snapshot=2167861248

Mapoutputrecords=5

查看结果

展开阅读全文