Hadoop HDFS安装和管理Word格式文档下载.docx

上传人:b****2 文档编号:3053850 上传时间:2023-05-01 格式:DOCX 页数:33 大小:32.93KB
下载 相关 举报
Hadoop HDFS安装和管理Word格式文档下载.docx_第1页
第1页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第2页
第2页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第3页
第3页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第4页
第4页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第5页
第5页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第6页
第6页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第7页
第7页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第8页
第8页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第9页
第9页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第10页
第10页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第11页
第11页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第12页
第12页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第13页
第13页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第14页
第14页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第15页
第15页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第16页
第16页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第17页
第17页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第18页
第18页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第19页
第19页 / 共33页
Hadoop HDFS安装和管理Word格式文档下载.docx_第20页
第20页 / 共33页
亲,该文档总共33页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

Hadoop HDFS安装和管理Word格式文档下载.docx

《Hadoop HDFS安装和管理Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《Hadoop HDFS安装和管理Word格式文档下载.docx(33页珍藏版)》请在冰点文库上搜索。

Hadoop HDFS安装和管理Word格式文档下载.docx

1、修改主机名

在所有节点都要执行此操作,在202上:

vi/etc/sysconfig/network

NETWORKING=yes

HOSTNAME=ost2

在203上为

HOSTNAME=ost3

在204上为

HOSTNAME=ost4

2、创建hdfs用户

Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户。

在所有节点上创建hdfs用户:

用户名hdfs,口令hdfs,主目录是/home/hdfs。

3、添加节点到/etc/hosts(在所有节点上执行此操作,其中192.168.188.201是虚拟IP)

127.0.0.1localhost.localdomainlocalhost

192.168.188.201ostvip

192.168.188.203ost3

192.168.188.202ost2

192.168.188.204ost4

10.0.0.202ost2

10.0.0.203ost3

可以在ost2修改,然后拷贝到其他节点(需root权限)

scp/etc/hostsost3:

/etc/hosts

scp/etc/hostsost4:

1.2.HDFS部署(ost2上)

1、以hdfs用户登录,在主目录下创建子目录hdfsinstall

2、在hdfsinstall目录下解压缩文件,将解压到hadoop-0.18.1目录

tarxvzfforlink-hadoop.tar.gz

3、创建链接

ln-shadoop-0.18.1hadoop

4、创建配置目录

mkdir/home/hdfs/hdfsinstall/hadoop-config

5、将/home/hdfs/hdfsinstall/hadoop/conf/目录中的文件拷贝到hadoop-config目录中

6、指定环境变量$HADOOP_CONF_DIR

在/home/hdfs/.bash_profile中添加

HADOOP_CONF_DIR=/home/hdfs/hdfsinstall/hadoop-config/

exportHADOOP_CONF_DIR

7、下载jdk-1_5_x-rc-linux-i586.bin。

8、运行

./jdk-1_5_x-rc-linux-i586.bin

安装完毕,JDK安装在/home/hdfs/hdfsinstall/jdk1.5.0_16目录下

9、创建链接:

ln–sjdk1.5.0_16jdk

10、设置环境变量(写入hdfs用户的.bash_profile中)

JAVA_HOME=/home/hdfs/hdfsinstall/jdk

exportJAVA_HOME

PATH=$JAVA_HOME/bin:

$JAVA_HOME/jre/bin:

$PATH

exportPATH

CLASSPATH=$JAVA_HOME/lib:

$JAVA_HOME/jre/lib

exportCLASSPATH

11、创建子目录filesystem

cd/home/hdfs/hdfsinstall

mkdirfilesystem

1.3.Hadoop配置

cd$HADOOP_CONF_DIR,进入/home/hdfs/hdfsinstall/hadoop-config目录

1、masters文件(这里指定虚拟ip作为名字节点,指定SecondaryNamenode)

192.168.188.201

2、slaves文件(指定数据节点)

192.168.188.204

3、修改hadoop-env.sh

exportJAVA_HOME=/home/hdfs/hdfsinstall/jdk

4、hadoop-site.xml

在hadoop-site.xml里面定义我们需要的项,其值会覆盖hadoop-default.xml中的默认值:

<

?

xmlversion="

1.0"

>

xml-stylesheettype="

text/xsl"

href="

configuration.xsl"

!

--Putsite-specificpropertyoverridesinthisfile.-->

configuration>

property>

<

name>

fs.default.name<

/name>

value>

hdfs:

//192.168.188.201:

9000<

/value>

description>

namenode的配置,机器名加端口<

/description>

/property>

 

--map/reduceproperties-->

mapred.job.tracker<

9001<

JobTracker的配置,机器名加端口

hadoop.tmp.dir<

/mnt/drbd/hdfs/tmp<

Hadoop的默认临时路径,这里设置在双机的共享位置<

dfs.name.dir<

/mnt/drbd/hdfs/name<

存储名字节点信息的位置,这里设置在双机的共享位置

dfs.data.dir<

/home/hdfs/hdfsinstall/filesystem/data<

存储文件系统数据的位置,在每个数据节点上。

dfs.replication<

2<

数据需要备份的数量,默认是3

dfs.permissions.supergroup<

hdfs<

liang<

super-users,可以添加多个用户<

/configuration>

2、修改hadoop-env.sh

1.4.创建目录(ost2)

1root执行

chmod777/mnt/drbd

2创建hdfs目录(hdfs用户)

mkdir/mnt/drbd/hdfs

3创建临时目录(hdfs用户)

mkdir/mnt/drbd/hdfs/tmp

4创建名字节点元数据目录

mkdir/mnt/drbd/hdfs/name(hdfs用户)

5创建数据节点目录(所有节点上)(hdfs用户)

mkdir/home/hdfs/hdfsinstall/filesystem/data

1.5.数据节点存活性和副本配置

每个数据节点周期性地向名字节点发送心跳信号。

网络割裂可能导致一部分数据节点跟名字节点失去联系。

名字节点通过心跳信号的缺失来检测这一情况,并将这些近期不再发送心跳信号数据节点标记为宕机,不会再将新的IO请求发给它们。

任何存储在宕机数据节点上的数据将不再有效。

数据节点的宕机可能会引起一些数据块的副本系数低于指定值,名字节点不断地检测这些需要复制的数据块,一旦发现就启动复制操作。

在下列情况下,可能需要重新复制:

某个数据节点节点失效,某个副本遭到损坏,数据节点上的硬盘错误,或者文件的副本系数增大。

副本数默认配置为3,即每个文件在三个节点上保存副本,文件的副本数配置在hadoop-site.xml中:

如果把副本数配置为1,当数据节点发生故障后,该数据节点上保存的数据将丢失。

如果副本数配置为2,某个数据节点发生故障并不会影响数据可用性,但如果希望继续保存两个拷贝,需要执行bin/start-balancer.sh来实现平衡,可以把这个脚本定时自动执行。

1.6.拷贝配置到数据节点

将hadoop的整体环境从namenode拷贝到数据节点上去,这里是ost4

scp-r/home/hdfs/hdfsinstall/ost4:

/home/hdfs/

1.7.日志配置

1名字节点日志

Hadoop中,名字节点会产生hadoop-hdfs-namenode-ost2.log和hadoop-hdfs-secondarynamenode-ost2.log日志,其中ost2为节点名,hdfs为超级用户名。

名字节点的日志由运行在ost2上的进程写入。

由于名字节点采用了ha方式部署,因此需要把名字节点的日志保存在共享位置。

即对于ost2,修改hadoop-env.sh,把日志保存在drbd盘上:

exportHADOOP_LOG_DIR=/mnt/drbd/hdfs/logs

备注:

由于ost2和ost3采用了heartbeat实现HA部署,要求两台机器有不同的主机名,而hdfs根据主机名创建日志,因此在设备切换时,会产生不同的日志,如hadoop-hdfs-namenode-ost2.log和hadoop-hdfs-namenode-ost3.log,但不影响系统正常运行。

2数据节点日志

数据节点会产生hadoop-hdfs-datanode-ost4.log,其中ost4为节点名,hdfs为超级用户名。

数据节点的日志由运行在不同数据节点上的进程各自写入,即每个数据节点写自己的日志。

对于数据节点ost4:

mkdirhadoop_datanode_logs

修改hadoop-env.sh原有配置,默认日志位置在/home/hdfs/hdfsinstall/hadoop/logs。

修改为:

exportHADOOP_LOG_DIR=/home/hdfs/hdfsinstall/hadoop_datanode_logs

1.8.SSH设置

在Hadoop启动以后,Namenode是通过SSH(SecureShell)来启动和停止各个节点上的各种守护进程的,这就需要在节点之间执行指令的时候是不需要输入密码的方式,故我们需要配置SSH使用无密码公钥认证的方式。

首先要保证每台机器上都装了SSH服务器,且都正常启动。

实际中用的都是OpenSSH。

ost2是主节点,它需要主动发起SSH连接到ost4,对于SSH服务来说,ost2就是SSH客户端,而ost4则是SSH服务端,因此在ost4上需要确定sshd服务已经启动。

简单的说,在ost2上需要生成一个密钥对,即一个私钥,一个公钥。

将公钥拷贝到ost4上,这样,比如当ost2向ost4发起ssh连接的时候,ost4上就会生成一个随机数并用ost2的公钥对这个随机数进行加密,并发送给ost2;

ost2收到这个加密的数以后用私钥进行解密,并将解密后的数发送回ost3,ost4确认解密的数无误后就允许ost2进行连接了。

这就完成了一次公钥认证过程。

1创建密钥

1)首先在ost2上生成密钥对:

[ost2]$ssh-keygen-trsa

2)询问其保存路径时直接回车采用默认路径。

3)提示要为生成的密钥输入passphrase的时候,直接回车,也就是将其设定为空密码。

4)生成的密钥对id_rsa,id_rsa.pub,默认存储在/home/hdfs/.ssh目录下。

2分发公钥

将id_rsa.pub的内容复制到每个机器(也包括本机)的/home/dbrg/.ssh/authorized_keys文件中。

如果机器上已经有authorized_keys这个文件,就在文件末尾加上id_rsa.pub中的内容,如果没有authorized_keys这个文件,直接cp或者scp。

对于ost2:

cpid_rsa.pubauthorized_keys

对于ost4:

mkdir.ssh

chmod755.ssh

在ost2上执行scpauthorized_keysost4:

/home/hdfs/.ssh/

对于ost3:

在ost2上执行scpauthorized_keysost3:

此处的scp就是通过ssh进行远程copy,此处需要输入远程主机的密码,即ost3机器上hdfs帐户的密码,当然,也可以用其他方法将authorized_keys文件拷贝到其他机器上

在ost4上执行:

chmod644authorized_keys

3测试(只能ost2向ost4发起连接,ost4向ost2发起需要另外配置)

由ost2向ost4发起ssh连接。

sshost4

如果ssh配置好了,就会出现以下提示信息

Theauthenticityofhost[ost3]can'

tbeestablished.

Keyfingerprintis10245f:

a0:

0b:

65:

d3:

82:

df:

ab:

44:

62:

6d:

98:

9c:

fe:

e9:

52.

Areyousureyouwanttocontinueconnecting(yes/no)?

OpenSSH告诉你它不知道这台主机,因为是第一次登录这台主机。

键入“yes”。

这将把这台主机的“识别标记”加到“~/.ssh/know_hosts”文件中。

第二次访问这台主机的时候就不会再显示这条提示信息了。

4SSH无密码访问

Openssh版本应该一致,例如openssh1.3.6p1和OpenSSH_3.9p1是无法实现无密码访问的。

支持无密码访问还需要修改配置文件/etc/ssh/sshd_config,这里是在ost4

RSAAuthenticationyes

PubkeyAuthenticationyes

AuthorizedKeysFile.ssh/authorized_keys

然后在ost4重启sshd

/etc/rc.d/init.d/sshdrestart

1.9.HDFS操作

1格式化Hadoop

启动之前,我们先要格式化namenode,先进入/home/hdfs/hdfsinstall/hadoop目录,执行下面的命令

bin/hadoopnamenode-format

如果不成功,就去HADOOP_LOG_DIR目录下去查看日志文件。

2启动hadoop

在bin/下面有很多启动脚本,可以根据自己的需要来启动。

*start-all.sh启动所有的Hadoop守护。

包括namenode,datanode,jobtracker,tasktrack

*stop-all.sh停止所有的Hadoop

*start-mapred.sh启动Map/Reduce守护。

包括Jobtracker和Tasktrack

*stop-mapred.sh停止Map/Reduce守护

*start-dfs.sh启动HadoopDFS守护.Namenode和Datanode

*stop-dfs.sh停止DFS守护

在这里,简单启动DFS:

bin/start-dfs.sh

3停止hadoop

bin/stop-dfs.sh

或者

bin/stop-all.sh

4建立/删除目录

bin/hadoopdfs-mkdirtestdir

bin/hadoopdfs-rmrtestdir

在HDFS中建立一个名为testdir的目录

5复制文件

bin/hadoopdfs-put/home/hdfs/hdfsinstall/hadoop/hadoop-0.18.1-tools.jartestdir/hadoop-0.18.1-tools.jar

把本地文件large.zip拷贝到HDFS的根目录下,文件名为testfile.zip

6查看现有文件

bin/hadoopdfs-ls

bin/hadoopdfs-lstestdir

7查看当前文件系统状态

bin/hadoopdfsadmin-report

2.数据节点管理

HDFS包含两种角色:

数据节点(datanode)和名字节点(namenode),名字节点只有一个(目前采用HA方式部署),数据节点最多支持2000个。

2.1.添加数据节点

这里新添加的数据节点是ost5:

192.168.188.205。

添加步骤:

1)修改名字节点上slaves文件,添加新节点。

2)将hadoop的整体环境从名字节点拷贝到数据节点上去。

3)重新启动名字节点。

4)新创建的文件会自动把块分配到新的节点。

5)旧文件需要手工来平衡,执行脚本bin/start-balancer.sh拷贝块实现平衡。

2.1.1.环境准备

1、修改主机名(在205上)

HOSTNAME=ost5

2、创建hdfs用户(在205上)

3、添加节点到/etc/hosts(在ost2上修改,拷贝到ost5)

192.168.188.205ost5

scp/etc/hostsost5:

2.1.2.Hadoop配置

1、slaves文件(增加数据节点,在ost2上)

cd$HADOOP_CONF_DIR,进入/home/hdfs/hdfsinstall/hadoop-config目录,修改slaves文件

192.168.188.205

2、SSH配置

1)在ost5上执行:

mkdir/home/hdfs/.ssh

2)在ost5上配置无密码SSH访问,修改/etc/ssh/sshd_config

3)在ost5重启sshd

4)在ost2上执行scpauthorized_keysost5:

5)在ost5上执行:

6)由ost2向ost5发起ssh连接(hdfs用户)。

sshost5

3、将hadoop的整体环境从ost2拷贝到ost5上去(hdfs用户)

scp-r/home/hdfs/hdfsinstall/ost5:

4、日志配置(在ost5上)

修改hadoop-env.sh原有配置,默认日志位置在${HADOOP_HOME}/logs。

5、配置环境变量(在ost5上)

修改/hom

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 工作范文 > 行政公文

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2