linux hadoop搭建手册以及三种集群模式配置Word文档格式.docx
《linux hadoop搭建手册以及三种集群模式配置Word文档格式.docx》由会员分享,可在线阅读,更多相关《linux hadoop搭建手册以及三种集群模式配置Word文档格式.docx(15页珍藏版)》请在冰点文库上搜索。
SELINUX=enforcing改为SELINUX=disabled
即
然后在执行如下命令:
setenforce0
getenforce
1.3Java安装
1.3.1上传文件并授权
(1).上传jdk文件到希望安装的路径
cpjdk-7u67-linux-x64.rpm/usr/local
chmod775jdk-7u67-linux-x64.rpm
(2).安装jdk
rpm–ivhjdk-7u67-linux-x64.rpm
(2).配置Java运行环境
在/etc/profile后面追加配置,具体配置如下:
exportJAVA_HOME=/usr/local/default
(4).验证Java运行环境
1.4Hadoop安装
1.4.2安装
(1).解压
tarzxvfhadoop-1.2.1.tar.gz
(2).将解压之后复制到希望安装的路径
cphadoop-1.2.1/usr/local
chown–Rhadoop:
hadoophadoop-1.2.1#将文件夹"
hadoop"
读权限分配给hadoop用户
(3).配置Hadoop运行环境
(4).验证Hadoop运行环境
第二章.Hadoop集群配置
Hadoop集群有三种运行模式,分别为单机模式,伪分布模式,完全分布式模式。
单机模式和伪分布式模式的配置基本相同,本文档将重点介绍,在此基础上给出完全分布式模式搭建还需要的工作。
1.单机模式(只有Master节点)
单机模式是Hadoop的默认模式。
在该模式下无需运行任何守护进程,所有程序都在单个JVM上执行。
该模式主要用于开发调试MapReduce程序的应用逻辑。
2.伪分布模式(Master和Slaver在同一机器上)
在伪分布模式下,Hadoop守护进程运行在一台机器上,模拟一个小规模的集群。
该模式在单机模式的基础上增加了代码调试功能,允许你检查NameNode,DataNode,JobTracker,TaskTracker等模拟节点的运行情况。
3.完全分布式模式(存在Slaver节点和Master节点不在同一机器上)
单机模式和伪分布模式均用于开发与调试的目的。
真实Hadoop集群的运行采用的是全分布模式。
2.1配置集群模式
2.1.1修改/etc/sysconfig/network文件
2.1.2修改/etc/hosts文件
2.1.3使修改生效
2.1.4验证修改
2.2SSH无密码验证配置
2.2.1Root用户修改/etc/ssh/sshd_config文件
RSAAuthenticationyes#启用RSA认证
PubkeyAuthenticationyes#启用公钥私钥配对认证方式
AuthorizedKeysFile.ssh/authorized_keys#公钥文件路径
2.2.2配置
(1).切换到hadoop用户
(2).生成无密码RSA秘钥对
在Master节点上把id_rsa.pub追加到授权的key里面去(2.2.1节)
cat~/.ssh/id_rsa.pub>
>
~/.ssh/authorized_keys
(3).重启SSH服务
servicesshdrestart
最好将sshd设为开机启动:
chkconfigsshd--level12345on
2.2.3.验证登陆
完全分布式模式下,Slaver节点不仅需要同样上述的操作,还需要将Master节点的~/.ssh/id_rsa.pub文件追加到自己的~/.ssh/authorized_keys文件的后面,然后Master节点还需要通过sshSlaver进行验证。
2.3修改配置文件
2.3.1配置Hadoop运行环境:
$HADOOP_HOME/conf/hadoop-env.sh
2.3.2配置HDFS
(1).配置Hadoop核心配置文件$HADOOP_HOME/conf/core-site.xml
<
configuration>
property>
<
!
—Hadoop运行中所有(临时)文件的根目录-->
name>
hadoop.tmp.dir<
/name>
value>
/home/hadoop/tmp<
/value>
/property>
--NameNode的IP地址和端口号-->
fs.default.name<
hdfs:
//Master:
9000<
/configuration>
如没有配置hadoop.tmp.dir参数,此时系统默认的临时目录为:
/tmp/hadoo-hadoop。
而这个目录在每次重启后都会被干掉,必须重新执行format才行,否则会出错。
(2).配置$HADOOP_HOME/conf/hdfs-site.xml文件
--数据副本数量,默认为3,salve少于3台会报错-->
dfs.replication<
1<
<
2.3.3配置MapReduce
(1).配置$HADOOP_HOME/conf/mapred-site.xml文件
--jobtracker交互端口,默认8021-->
mapred.job.tracker<
http:
9001<
(2).配置$HADOOP_HOME/conf/masters文件
将localhost替换为Master
(3).配置$HADOOP_HOME/conf/slaves文件(Master主机特有)
将所有slaver节点加入此文件
2.4启动和验证
2.4.1格式化HDFS文件系统
hadoopnamenode–format
2.4.2启动hadoop
2.4.3验证Hadoop
(1).工具验证
(2).用"
hadoopdfsadmin-report"
验证
(3).网页访问验证
jobtracker的web管理地址:
Master:
50030
NameNode
web管理地址:
Master:
50070
(4).任务验证
[hadoop@Masterfile]$moreinput1.txt
Hello,hadoop
[hadoop@Masterfile]$moreinput2.txt
Hello,welcomyou
[hadoop@Masterfile]$hadoopfs-mkdirinput
[hadoop@Masterfile]$hadoopfs-putinput*input
[hadoop@Masterfile]$hadoopfs-lsinput
Found2items
-rw-r--r--1hadoopsupergroup142013-12-2219:
21/user/hadoop/input/input1.txt
-rw-r--r--1hadoopsupergroup182013-12-2219:
21/user/hadoop/input/input2.txt
[hadoop@Masterfile]$hadoopjar/usr/local/hadoop-1.2.1/hadoop-examples-1.2.1.jarwordcountinputoutput
13/12/2219:
23:
30INFOinput.FileInputFormat:
Totalinputpathstoprocess:
2
30INFOutil.NativeCodeLoader:
Loadedthenative-hadooplibrary
30WARNsnappy.LoadSnappy:
Snappynativelibrarynotloaded
31INFOmapred.JobClient:
Runningjob:
job_201312221905_0001
32INFOmapred.JobClient:
map0%reduce0%
24:
09INFOmapred.JobClient:
map100%reduce0%
38INFOmapred.JobClient:
map100%reduce100%
41INFOmapred.JobClient:
Jobcomplete:
42INFOmapred.JobClient:
Counters:
29
JobCounters
Launchedreducetasks=1
SLOTS_MILLIS_MAPS=64814
Totaltimespentbyallreduceswaitingafterreservingslots(ms)=0
Totaltimespentbyallmapswaitingafterreservingslots(ms)=0
Launchedmaptasks=2
Data-localmaptasks=2
SLOTS_MILLIS_REDUCES=27100
FileOutputFormatCounters
BytesWritten=33
FileSystemCounters
FILE_BYTES_READ=68
HDFS_BYTES_READ=256
FILE_BYTES_WRITTEN=165724
HDFS_BYTES_WRITTEN=33
FileInputFormatCounters
BytesRead=32
Map-ReduceFramework
Mapoutputmaterializedbytes=74
Mapinputrecords=2
Reduceshufflebytes=74
SpilledRecords=10
Mapoutputbytes=52
Totalcommittedheapusage(bytes)=246685696
CPUtimespent(ms)=4350
Combineinputrecords=5
SPLIT_RAW_BYTES=224
Reduceinputrecords=5
Reduceinputgroups=4
Combineoutputrecords=5
Physicalmemory(bytes)snapshot=422400000
Reduceoutputrecords=4
Virtualmemory(bytes)snapshot=2167861248
Mapoutputrecords=5
查看结果