ImageVerifierCode 换一换
格式:DOCX , 页数:23 ,大小:24.44KB ,
资源ID:17154518      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bingdoc.com/d-17154518.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(Hadoop伪分布式安装流程补充.docx)为本站会员(b****0)主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(发送邮件至service@bingdoc.com或直接QQ联系客服),我们立即给予删除!

Hadoop伪分布式安装流程补充.docx

1、Hadoop伪分布式安装流程补充 Hadoop伪分布式安装流程一、 说明 Hadoop的运行模式有三种: 第一种是单机模式(local mode) 此模式不需要运行任何守护进程(daemon),所有的程序都运行在一个JVM上。在这种模式下调试和测试较方便,所以通常情况下在这种模式下进行开发测试,是应用开发阶段采用的模式。 第二种是伪分布模式(pseudo-distributed mode) 模拟分布式,单机上运行Hadoop守护进程。开发测试阶段采用的模式。 第三种是完全分布式(fully-distributed mode) Hadoop守护进程运行在一个分布的集群上。这种模式需要关注的是各组

2、件属性的正确配置和完整的启动Hadoop守护进程。 GNU/Linux是Hadoop产品开发和运行的平台。 Hadoop已在有四千个节点的GNU/Linux主机组成的集群系统上得到验证。Windows平台是作为开发平台支持的。由于分布式操作尚未在Windows平台上充分测试,所以还不作为一个生产平台被支持。 所需软件包括:JDK1.6及以上版本,必须安装,建议选择Sun公司发行的Java版本。 SSH 必须安装并且保证 sshd服务一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。以Hadoop2.0为例。集群里的一台

3、机器被指定为 NameNode,另一台不同的机器被指定为ResourceManager。这些机器是Master。余下的机器即作为DataNode也作为NodeManager。这些机器是Slaves。通常使用HADOOP_HOME指定Hadoop的安装的根路径。要求集群里的所有机器的HADOOP_HOME路径相同。就是把Hadoop安装在相同的路径下。伪分布式模拟了分布式Hadoop集群的一些功能。通常运用在测试环境,并且不是并行的。但是,小规模的Hadoop安装提供了学习Hadoop基础的简单方法。Hadoop需要运行在Linux系统上,Linux是Hadoop唯一支持的生产平台,通常是在Wi

4、ndows系统开发,而运行则在Linux系统上的Hadoop环境下运行。 对硬件的要求是双核、2G内存和尽可能大的硬盘空间。Linux环境,Java环境等。下面分步说明安装步骤。1.1 Hadoop伪分布式安装流程1.1.1 安装Apache Hadoop 从Hadoop的网站(http:/hadoop.apache.org/)上下载最新的发布版本(通常是一个打包好的gzipped tar文件),如:hadoop-*.*.*.tar.gz。 通常把Hadoop安装包解压到/usr/local目录下,当然也可以解压到/opt目录下。 cd /usr/localtar -xzvf hadoop-2

5、.7.0.tar.gzmv hadoop-2.7.0 hadoopvi /etc/profile 要为Hadoop配置环境变量,便于在任何目录执行Hadoop命令。以root用户登录系统,在/etc目录下的profile中添加以下内容。HADOOP_HOME是Hadoop的安装目录,设置PATH是为了系统可以找到Hadoop所有的命令,并且可以在任何目录执行Hadoop命令,而不用先进入到Hadoop的bin或sbin目录下再执行命令。CLASS_PATH是告知Java虚拟机Hadoop的jar包在什么位置。 用户root有修改系统文件的权限,用文本编辑器打开/etc/profile文件 vi

6、 /etc/profile 在profile文件后面添加以下内容保存退出export HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/binexport CLASS_PATH=$CLASS_PATH:$HADOOP_HOME/lib1.1.2 安装JDK Hadoop是用Java语言编写的,因此需要在Java环境下工作。尽管其他的JDK安装包也支持Hadoop,但使用最广的任然是Sun提供的JDK。 Hadoop2.0版本以上要求JDK版本在1.6及以上。从官网下载发布的最新JDK安装包

7、(Linux系统)。我们以CentOS6.4的Linux系统为例,系统已经预安装了开源的JDK版本,通过命令java -version进行查看。 通过命令删除预安装的JDK版本rpm -qa | grep javarpm -e -nodeps 文件名 用命令java -version检查是否已经卸载 安装JDK cd /usr/localtar -xzvf jdk-8u51-linux-i586.tar.gz 解压完成后在/usr/local目录下多了一个jdk1.8.0.51目录,注意JAVA_HOME就是JDK的安装目录/usr/local/ jdk1.8.0.51。 配置环境变量:用ro

8、ot用户登录配置环境变量 vi /etc/profile 在profile配置文件最后添加一下内容:export JAVA_HOME=/usr/local/jdk1.8.0_51export JRE_HOME=/usr/local/jdk1.8.0_51/jreexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATHexport CLASS_PATH=.:$JAVA_HOME/lib:$JRE_HOME/lib 为了确保JAVA_HOME配置生效,运行profile脚本source /etc/profile1.1.3 SSH免认证登录(无密码验证)配置单机模

9、式下,没有Hadoop守护进程,所以不需要配置SSH。在伪分布式和完全分布式情况下必须启动Hadoop守护进程,然而启动Hadoop守护进程的前提是已经成功安装了SSH。Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候无需输入密码,因此需要安装配置SSH,这样NameNode使用SSH无密码登录并启动其它节点上的DataNode进程,同样原理,DataNode上也能使用SSH无密码登录到NameNode报告节点运行情况。 用

10、下面的命令查看系统是否安装了SSH服务和RSYNC服务rpm -qa | grep opensshrpm -qa | grep rsync rsync是远程数据同步工具,可以同步多台主机间的文件。如果没有安装两个服务,采用下面命令安装,但是安装需要连接外网。 安装命令是:yum install sshyum install rsync 在主机上生成密码对。 我们用yarn用户登录生成密码对 命令: ssh-keygen -t rsa -f /.ssh/id_rsa ssh localhostls -acd .sshlscat id_rsacd /etclscd sshlssu.vi sshd_

11、configexitcd cd .sshlscat authorized_keysservice sshd restartcd .sshls l-rw-. 1 yarn yarn 391 2月 24 13:53 authorized_keys-rw-. 1 yarn yarn 1675 2月 24 13:51 id_rsa-rw-r-r-. 1 yarn yarn 391 2月 24 13:51 id_rsa.pub-rw-r-r-. 1 yarn yarn 777 2月 25 14:05 known_hostschmod 600 authorized_keysls lcd ls ladrwx

12、-. 2 yarn yarn 4096 2月 24 13:55 .sshcd /etcsuvi hosts127.0.0.1 YARNexitssh localhost把生成的公钥追加到yarn用户的/.ssh/authorized_keys文件中,就是把密码字符串复制进去,再次追加公钥,前面的信息不能丢失。这个文件非常重要,机器间登录都要读取这个文件,判断是否允许登录,注意:使用yarn用户执行下面命令。使用yarn用户执行下面的命令! 命令:cat /.ssh/id_rsa.pub /.ssh/authorized_keys为文件authorized_keys设置读写权限,这个文件在用户y

13、arn工作目录下,yarn就是属主,设置属主的读写权限,注意:使用yarn用户执行下面命令。 命令:chmod 600 /.ssh/authorized_keys为用户yarn修改/.ssh目录的权限,让yarn用户对目录有读、写、执行的权限 命令:chmod 700 /.ssh 这个命令不要执行,因为我们是伪分布模式。scp /.ssh/id_rsa.pub yarn192.168.1.3:/ 对/etc/ssh/目录下的sshd_config文件进行配置,注意:这个文件是root的权限,所以要更换用户,使用管理员权限修改文件。命令:su -cd /etc/sshvi sshd_config

14、配置完成后要重启服务,退出root,用户yarn测试验证是否成功命令: service sshd restartssh localhost配置/etc目录下的文件hosts,注意:使用root权限,配置如下:命令:cd /etcvi hosts /etc/hosts文件中添加ip和主机名。127.0.0.1 YARN1.1.4 创建Hadoop工作目录 数据目录和日志目录通常情况下不在Hadoop安装目录下,因为Hadoop版本升级不会影响到已存储的数据。当然我们是测试环境,可以在Hadoop安装目录中创建。cd /usr/local/hadoopmkdir -p data/namenodem

15、kdir -p data/snamenodemkdir -p data/datanodemkdir -p data/pidmkdir logsmkdir -p tmp/mapred/local 这些创建的目录在配置文件中要用到。1.1.5 配置hadoop-env.sh配置文件hadoop-env.sh配置文件是Hadoop运行期核心的配置文件,文件中的变量为集群特有的值。针对集群的实际情况要对此文件进行配置。hadoop-env.sh文件中主要设置了Hadoop守护进程的运行环境和守护进程的运行参数。守护进程包括NameNode进程、DataNode进程、ResourceManager进程、

16、NodeManager进程和SecondaryNameNode进程。配置如下:# The java implementation to use.export JAVA_HOME=/usr/local/jdk1.8.0_51export HADOOP_CLASSPATH=.# The jsvc implementation to use. Jsvc is required to run secure datanodes# that bind to privileged ports to provide authentication of data transfer# protocol. Jsvc

17、 is not required if SASL is configured for authentication of# data transfer protocol using non-privileged ports.#export JSVC_HOME=$JSVC_HOMEexport HADOOP_CONF_DIR=$HADOOP_CONF_DIR:-/etc/hadoop# Extra Java CLASSPATH elements. Automatically insert capacity-scheduler.for f in $HADOOP_HOME/contrib/capac

18、ity-scheduler/*.jar; do if $HADOOP_CLASSPATH ; then export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f else export HADOOP_CLASSPATH=$f fidone# The maximum amount of heap to use, in MB. Default is 1000.export HADOOP_HEAPSIZE=500export HADOOP_NAMENODE_INIT_HEAPSIZE=500# Extra Java runtime options. Empty by

19、default.export HADOOP_OPTS=$HADOOP_OPTS -D.preferIPv4Stack=true# Command specific options appended to HADOOP_OPTS when specifiedexport HADOOP_NAMENODE_OPTS=-XX:+UseParallelGC $HADOOP_NAMENODE_OPTSexport HADOOP_NAMENODE_OPTS=-Dhadoop.security.logger=$HADOOP_SECURITY_LOGGER:-INFO,RFAS -Dhdfs.audit.log

20、ger=$HDFS_AUDIT_LOGGER:-INFO,NullAppender $HADOOP_NAMENODE_OPTSexport HADOOP_DATANODE_OPTS=-Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTSexport HADOOP_SECONDARYNAMENODE_OPTS=-Dhadoop.security.logger=$HADOOP_SECURITY_LOGGER:-INFO,RFAS -Dhdfs.audit.logger=$HDFS_AUDIT_LOGGER:-INFO,NullAppend

21、er $HADOOP_SECONDARYNAMENODE_OPTSexport HADOOP_NFS3_OPTS=$HADOOP_NFS3_OPTSexport HADOOP_PORTMAP_OPTS=-Xmx512m $HADOOP_PORTMAP_OPTS# The following applies to multiple commands (fs, dfs, fsck, distcp etc)export HADOOP_CLIENT_OPTS=-Xmx512m $HADOOP_CLIENT_OPTS#HADOOP_JAVA_PLATFORM_OPTS=-XX:-UsePerfData

22、$HADOOP_JAVA_PLATFORM_OPTS# On secure datanodes, user to run the datanode as after dropping privileges.# This *MUST* be uncommented to enable secure HDFS if using privileged ports# to provide authentication of data transfer protocol. This *MUST NOT* be# defined if SASL is configured for authenticati

23、on of data transfer protocol# using non-privileged ports.export HADOOP_SECURE_DN_USER=$HADOOP_SECURE_DN_USER# Where log files are stored. $HADOOP_HOME/logs by default.#export HADOOP_LOG_DIR=$HADOOP_LOG_DIR/$USER# Where log files are stored in the secure data environment.export HADOOP_SECURE_DN_LOG_D

24、IR=$HADOOP_LOG_DIR/$HADOOP_HDFS_USER# HDFS Mover specific parameters# Specify the JVM options to be used when starting the HDFS Mover.# These options will be appended to the options specified as HADOOP_OPTS# and therefore may override any similar flags set in HADOOP_OPTS# export HADOOP_MOVER_OPTS=#

25、Advanced Users Only!# The directory where pid files are stored. /tmp by default.# NOTE: this should be set to a directory that can only be written to by # the user that will run the hadoop daemons. Otherwise there is the# potential for a symlink attack.export HADOOP_PID_DIR=/usr/local/hadoop/data/pi

26、dexport HADOOP_PID_DIR=$HADOOP_PID_DIRexport HADOOP_SECURE_DN_PID_DIR=$HADOOP_PID_DIR# A string representing this instance of hadoop. $USER by default.export HADOOP_IDENT_STRING=$USER 首先要设置JAVA_HOME, JDK安装完成后,安装的路径需要告诉Hadoop,这样Hadoop在运行期才能找到JDK,否则在启动Hadoop服务时会报出找不到JAVA_HOME并终止启动。设置HADOOP_CLASSPATH为当

27、前目录,这为执行作业提供了方便,在本地文件系统下的任何目录都可以执行MapReduce作业。JSVC_HOME变量不用设置,和Tomcat服务有关。HADOOP_CONF_DIR默认是HADOOP_HOME的/etc/hadoop目录。注意下面的代码,Hadoop2.0后目录结构发生变化,取消了contrib目录,下面的循环不会执行。# Extra Java CLASSPATH elements. Automatically insert capacity-scheduler.for f in $HADOOP_HOME/contrib/capacity-scheduler/*.jar; do

28、if $HADOOP_CLASSPATH ; then export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f else export HADOOP_CLASSPATH=$f fidone设置Hadoop堆内存,Hadoop最大堆内存和NameNode进程最大堆内存,默认1G。可根据硬件情况和集群规模动态设置:# The maximum amount of heap to use, in MB. Default is 1000.export HADOOP_HEAPSIZE=500export HADOOP_NAMENODE_INIT_HEAPSIZE=500设

29、置Hadoop进程的网络协议:export HADOOP_OPTS=$HADOOP_OPTS -D.preferIPv4Stack=true下面是Hadoop守护进程的运行环境和运行参数。包括NameNode进程、DataNode进程和 SecondaryNameNode进程。添加下面设置,给NameNode进程设置垃圾回收机制。export HADOOP_NAMENODE_OPTS=-XX:+UseParallelGC $HADOOP_NAMENODE_OPTS设置HADOOP_PID_DIR变量,如果不设置默认/tmp目录下:export HADOOP_PID_DIR=/usr/local

30、/hadoop/data/pid1.1.6 配置mapred-env.sh配置文件 mapred-env.sh配置文件是在执行MapReduce作业是的运行环境和运行参数的配置文件。export JAVA_HOME=/usr/local/jdk1.8.0_51export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=500export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA#export HADOOP_JOB_HISTORYSERVER_OPTS=# Where log files are stored. $HADOOP_MAPRED_HOME/logs by default.#export HADOOP_MAPRED_LOG_DIR=# Hadoop JobSummary logger.#export HADOOP_JHS_LOGGER=INFO,RFA# The pid files are stored. /tmp by default.export HADOOP_MAPRED_PID_DIR=/usr/local/hadoop/data/pid#A string representing this instance of hadoop. $USER by

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2