Hadoop伪分布式安装流程补充.docx-资源下载

Hadoop伪分布式安装流程补充.docx

1、Hadoop伪分布式安装流程补充 Hadoop伪分布式安装流程一、说明 Hadoop的运行模式有三种：第一种是单机模式(local mode) 此模式不需要运行任何守护进程(daemon)，所有的程序都运行在一个JVM上。在这种模式下调试和测试较方便，所以通常情况下在这种模式下进行开发测试，是应用开发阶段采用的模式。第二种是伪分布模式(pseudo-distributed mode) 模拟分布式，单机上运行Hadoop守护进程。开发测试阶段采用的模式。第三种是完全分布式(fully-distributed mode) Hadoop守护进程运行在一个分布的集群上。这种模式需要关注的是各组

2、件属性的正确配置和完整的启动Hadoop守护进程。 GNU/Linux是Hadoop产品开发和运行的平台。 Hadoop已在有四千个节点的GNU/Linux主机组成的集群系统上得到验证。Windows平台是作为开发平台支持的。由于分布式操作尚未在Windows平台上充分测试，所以还不作为一个生产平台被支持。所需软件包括：JDK1.6及以上版本，必须安装，建议选择Sun公司发行的Java版本。 SSH 必须安装并且保证 sshd服务一直运行，以便用Hadoop 脚本管理远端Hadoop守护进程。安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。以Hadoop2.0为例。集群里的一台

3、机器被指定为 NameNode，另一台不同的机器被指定为ResourceManager。这些机器是Master。余下的机器即作为DataNode也作为NodeManager。这些机器是Slaves。通常使用HADOOP_HOME指定Hadoop的安装的根路径。要求集群里的所有机器的HADOOP_HOME路径相同。就是把Hadoop安装在相同的路径下。伪分布式模拟了分布式Hadoop集群的一些功能。通常运用在测试环境，并且不是并行的。但是，小规模的Hadoop安装提供了学习Hadoop基础的简单方法。Hadoop需要运行在Linux系统上，Linux是Hadoop唯一支持的生产平台，通常是在Wi

4、ndows系统开发，而运行则在Linux系统上的Hadoop环境下运行。对硬件的要求是双核、2G内存和尽可能大的硬盘空间。Linux环境，Java环境等。下面分步说明安装步骤。1.1 Hadoop伪分布式安装流程1.1.1 安装Apache Hadoop 从Hadoop的网站(http:/hadoop.apache.org/)上下载最新的发布版本(通常是一个打包好的gzipped tar文件)，如：hadoop-*.*.*.tar.gz。通常把Hadoop安装包解压到/usr/local目录下，当然也可以解压到/opt目录下。 cd /usr/localtar -xzvf hadoop-2

5、.7.0.tar.gzmv hadoop-2.7.0 hadoopvi /etc/profile 要为Hadoop配置环境变量，便于在任何目录执行Hadoop命令。以root用户登录系统，在/etc目录下的profile中添加以下内容。HADOOP_HOME是Hadoop的安装目录，设置PATH是为了系统可以找到Hadoop所有的命令，并且可以在任何目录执行Hadoop命令，而不用先进入到Hadoop的bin或sbin目录下再执行命令。CLASS_PATH是告知Java虚拟机Hadoop的jar包在什么位置。用户root有修改系统文件的权限，用文本编辑器打开/etc/profile文件 vi

6、 /etc/profile 在profile文件后面添加以下内容保存退出export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/binexport CLASS_PATH=$CLASS_PATH:$HADOOP_HOME/lib1.1.2 安装JDK Hadoop是用Java语言编写的，因此需要在Java环境下工作。尽管其他的JDK安装包也支持Hadoop，但使用最广的任然是Sun提供的JDK。 Hadoop2.0版本以上要求JDK版本在1.6及以上。从官网下载发布的最新JDK安装包

7、(Linux系统)。我们以CentOS6.4的Linux系统为例，系统已经预安装了开源的JDK版本，通过命令java -version进行查看。通过命令删除预安装的JDK版本rpm -qa | grep javarpm -e -nodeps 文件名用命令java -version检查是否已经卸载安装JDK cd /usr/localtar -xzvf jdk-8u51-linux-i586.tar.gz 解压完成后在/usr/local目录下多了一个jdk1.8.0.51目录，注意JAVA_HOME就是JDK的安装目录/usr/local/ jdk1.8.0.51。配置环境变量：用ro

8、ot用户登录配置环境变量 vi /etc/profile 在profile配置文件最后添加一下内容：export JAVA_HOME=/usr/local/jdk1.8.0_51export JRE_HOME=/usr/local/jdk1.8.0_51/jreexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATHexport CLASS_PATH=.:$JAVA_HOME/lib:$JRE_HOME/lib 为了确保JAVA_HOME配置生效，运行profile脚本source /etc/profile1.1.3 SSH免认证登录(无密码验证)配置单机模

9、式下，没有Hadoop守护进程，所以不需要配置SSH。在伪分布式和完全分布式情况下必须启动Hadoop守护进程，然而启动Hadoop守护进程的前提是已经成功安装了SSH。Hadoop运行过程中需要管理远端Hadoop守护进程，在Hadoop启动以后，NameNode是通过SSH（Secure Shell）来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候无需输入密码，因此需要安装配置SSH，这样NameNode使用SSH无密码登录并启动其它节点上的DataNode进程，同样原理，DataNode上也能使用SSH无密码登录到NameNode报告节点运行情况。用

10、下面的命令查看系统是否安装了SSH服务和RSYNC服务rpm -qa | grep opensshrpm -qa | grep rsync rsync是远程数据同步工具，可以同步多台主机间的文件。如果没有安装两个服务，采用下面命令安装，但是安装需要连接外网。安装命令是：yum install sshyum install rsync 在主机上生成密码对。我们用yarn用户登录生成密码对命令： ssh-keygen -t rsa -f /.ssh/id_rsa ssh localhostls -acd .sshlscat id_rsacd /etclscd sshlssu.vi sshd_

11、configexitcd cd .sshlscat authorized_keysservice sshd restartcd .sshls l-rw-. 1 yarn yarn 391 2月 24 13:53 authorized_keys-rw-. 1 yarn yarn 1675 2月 24 13:51 id_rsa-rw-r-r-. 1 yarn yarn 391 2月 24 13:51 id_rsa.pub-rw-r-r-. 1 yarn yarn 777 2月 25 14:05 known_hostschmod 600 authorized_keysls lcd ls ladrwx

12、-. 2 yarn yarn 4096 2月 24 13:55 .sshcd /etcsuvi hosts127.0.0.1 YARNexitssh localhost把生成的公钥追加到yarn用户的/.ssh/authorized_keys文件中，就是把密码字符串复制进去，再次追加公钥，前面的信息不能丢失。这个文件非常重要，机器间登录都要读取这个文件，判断是否允许登录，注意：使用yarn用户执行下面命令。使用yarn用户执行下面的命令！命令：cat /.ssh/id_rsa.pub /.ssh/authorized_keys为文件authorized_keys设置读写权限，这个文件在用户y

13、arn工作目录下，yarn就是属主，设置属主的读写权限，注意：使用yarn用户执行下面命令。命令：chmod 600 /.ssh/authorized_keys为用户yarn修改/.ssh目录的权限，让yarn用户对目录有读、写、执行的权限命令：chmod 700 /.ssh 这个命令不要执行，因为我们是伪分布模式。scp /.ssh/id_rsa.pub yarn192.168.1.3:/ 对/etc/ssh/目录下的sshd_config文件进行配置，注意：这个文件是root的权限，所以要更换用户，使用管理员权限修改文件。命令：su -cd /etc/sshvi sshd_config

14、配置完成后要重启服务，退出root，用户yarn测试验证是否成功命令： service sshd restartssh localhost配置/etc目录下的文件hosts，注意：使用root权限，配置如下：命令：cd /etcvi hosts /etc/hosts文件中添加ip和主机名。127.0.0.1 YARN1.1.4 创建Hadoop工作目录数据目录和日志目录通常情况下不在Hadoop安装目录下，因为Hadoop版本升级不会影响到已存储的数据。当然我们是测试环境，可以在Hadoop安装目录中创建。cd /usr/local/hadoopmkdir -p data/namenodem

15、kdir -p data/snamenodemkdir -p data/datanodemkdir -p data/pidmkdir logsmkdir -p tmp/mapred/local 这些创建的目录在配置文件中要用到。1.1.5 配置hadoop-env.sh配置文件hadoop-env.sh配置文件是Hadoop运行期核心的配置文件，文件中的变量为集群特有的值。针对集群的实际情况要对此文件进行配置。hadoop-env.sh文件中主要设置了Hadoop守护进程的运行环境和守护进程的运行参数。守护进程包括NameNode进程、DataNode进程、ResourceManager进程、

16、NodeManager进程和SecondaryNameNode进程。配置如下：# The java implementation to use.export JAVA_HOME=/usr/local/jdk1.8.0_51export HADOOP_CLASSPATH=.# The jsvc implementation to use. Jsvc is required to run secure datanodes# that bind to privileged ports to provide authentication of data transfer# protocol. Jsvc

17、 is not required if SASL is configured for authentication of# data transfer protocol using non-privileged ports.#export JSVC_HOME=$JSVC_HOMEexport HADOOP_CONF_DIR=$HADOOP_CONF_DIR:-/etc/hadoop# Extra Java CLASSPATH elements. Automatically insert capacity-scheduler.for f in $HADOOP_HOME/contrib/capac

18、ity-scheduler/*.jar; do if $HADOOP_CLASSPATH ; then export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f else export HADOOP_CLASSPATH=$f fidone# The maximum amount of heap to use, in MB. Default is 1000.export HADOOP_HEAPSIZE=500export HADOOP_NAMENODE_INIT_HEAPSIZE=500# Extra Java runtime options. Empty by

19、default.export HADOOP_OPTS=$HADOOP_OPTS -D.preferIPv4Stack=true# Command specific options appended to HADOOP_OPTS when specifiedexport HADOOP_NAMENODE_OPTS=-XX:+UseParallelGC $HADOOP_NAMENODE_OPTSexport HADOOP_NAMENODE_OPTS=-Dhadoop.security.logger=$HADOOP_SECURITY_LOGGER:-INFO,RFAS -Dhdfs.audit.log

20、ger=$HDFS_AUDIT_LOGGER:-INFO,NullAppender $HADOOP_NAMENODE_OPTSexport HADOOP_DATANODE_OPTS=-Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTSexport HADOOP_SECONDARYNAMENODE_OPTS=-Dhadoop.security.logger=$HADOOP_SECURITY_LOGGER:-INFO,RFAS -Dhdfs.audit.logger=$HDFS_AUDIT_LOGGER:-INFO,NullAppend

21、er $HADOOP_SECONDARYNAMENODE_OPTSexport HADOOP_NFS3_OPTS=$HADOOP_NFS3_OPTSexport HADOOP_PORTMAP_OPTS=-Xmx512m $HADOOP_PORTMAP_OPTS# The following applies to multiple commands (fs, dfs, fsck, distcp etc)export HADOOP_CLIENT_OPTS=-Xmx512m $HADOOP_CLIENT_OPTS#HADOOP_JAVA_PLATFORM_OPTS=-XX:-UsePerfData

22、$HADOOP_JAVA_PLATFORM_OPTS# On secure datanodes, user to run the datanode as after dropping privileges.# This *MUST* be uncommented to enable secure HDFS if using privileged ports# to provide authentication of data transfer protocol. This *MUST NOT* be# defined if SASL is configured for authenticati

23、on of data transfer protocol# using non-privileged ports.export HADOOP_SECURE_DN_USER=$HADOOP_SECURE_DN_USER# Where log files are stored. $HADOOP_HOME/logs by default.#export HADOOP_LOG_DIR=$HADOOP_LOG_DIR/$USER# Where log files are stored in the secure data environment.export HADOOP_SECURE_DN_LOG_D

24、IR=$HADOOP_LOG_DIR/$HADOOP_HDFS_USER# HDFS Mover specific parameters# Specify the JVM options to be used when starting the HDFS Mover.# These options will be appended to the options specified as HADOOP_OPTS# and therefore may override any similar flags set in HADOOP_OPTS# export HADOOP_MOVER_OPTS=#

25、Advanced Users Only!# The directory where pid files are stored. /tmp by default.# NOTE: this should be set to a directory that can only be written to by # the user that will run the hadoop daemons. Otherwise there is the# potential for a symlink attack.export HADOOP_PID_DIR=/usr/local/hadoop/data/pi

26、dexport HADOOP_PID_DIR=$HADOOP_PID_DIRexport HADOOP_SECURE_DN_PID_DIR=$HADOOP_PID_DIR# A string representing this instance of hadoop. $USER by default.export HADOOP_IDENT_STRING=$USER 首先要设置JAVA_HOME， JDK安装完成后，安装的路径需要告诉Hadoop，这样Hadoop在运行期才能找到JDK，否则在启动Hadoop服务时会报出找不到JAVA_HOME并终止启动。设置HADOOP_CLASSPATH为当

27、前目录，这为执行作业提供了方便，在本地文件系统下的任何目录都可以执行MapReduce作业。JSVC_HOME变量不用设置，和Tomcat服务有关。HADOOP_CONF_DIR默认是HADOOP_HOME的/etc/hadoop目录。注意下面的代码，Hadoop2.0后目录结构发生变化，取消了contrib目录，下面的循环不会执行。# Extra Java CLASSPATH elements. Automatically insert capacity-scheduler.for f in $HADOOP_HOME/contrib/capacity-scheduler/*.jar; do

28、if $HADOOP_CLASSPATH ; then export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f else export HADOOP_CLASSPATH=$f fidone设置Hadoop堆内存，Hadoop最大堆内存和NameNode进程最大堆内存，默认1G。可根据硬件情况和集群规模动态设置：# The maximum amount of heap to use, in MB. Default is 1000.export HADOOP_HEAPSIZE=500export HADOOP_NAMENODE_INIT_HEAPSIZE=500设

29、置Hadoop进程的网络协议：export HADOOP_OPTS=$HADOOP_OPTS -D.preferIPv4Stack=true下面是Hadoop守护进程的运行环境和运行参数。包括NameNode进程、DataNode进程和 SecondaryNameNode进程。添加下面设置，给NameNode进程设置垃圾回收机制。export HADOOP_NAMENODE_OPTS=-XX:+UseParallelGC $HADOOP_NAMENODE_OPTS设置HADOOP_PID_DIR变量，如果不设置默认/tmp目录下：export HADOOP_PID_DIR=/usr/local

30、/hadoop/data/pid1.1.6 配置mapred-env.sh配置文件 mapred-env.sh配置文件是在执行MapReduce作业是的运行环境和运行参数的配置文件。export JAVA_HOME=/usr/local/jdk1.8.0_51export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=500export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA#export HADOOP_JOB_HISTORYSERVER_OPTS=# Where log files are stored. $HADOOP_MAPRED_HOME/logs by default.#export HADOOP_MAPRED_LOG_DIR=# Hadoop JobSummary logger.#export HADOOP_JHS_LOGGER=INFO,RFA# The pid files are stored. /tmp by default.export HADOOP_MAPRED_PID_DIR=/usr/local/hadoop/data/pid#A string representing this instance of hadoop. $USER by

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？