基于hadoop的云计算第一篇安装配置篇.docx-资源下载

基于hadoop的云计算第一篇安装配置篇.docx

1、基于hadoop的云计算第一篇安装配置篇Hadoop学习笔记安装配置篇邓兵野Hadoop学习笔记安装配置篇 11. Hadoop基本组成 12. 名词解释 13. 安装平台： 24. 所需的软件： 25. 下载 26. 部署 27. 环境配置 27.1 公共配置（集群中所有机器都需要的配置） 27.2 每个节点不同的配置 48. hadoop无用户登录配置 79. 启动hadoop 91. Hadoop基本组成 NameNode 主要存放文件映射和文件更改日志 SecondaryNameNode 一个守护进程定时从NameNode同步文件更改日志并合并成一条日志，方便hadoop每

2、次重启时找到上次宕机的还原点。在后续的版本中会被backupNameNode和nameNode集群取代。 Jobtracker 任务调度守护进程 Tasktracker 任务执行进程 DataName 数据存储节点，往往和Tasktracker部署在同一台机器上。2. 名词解释名词说明备注NNNameNodeMaster主节点SNNSecondaryNameNodeJtJobtrackerTtTasktrackerDNDataNode数据存储节点3. 安装平台：GNU/Linux ，hadoop不建议在win32平台上使用，顾这里只介绍在linux系统上的安装和配置4. 所需的软件：Ja

3、vaTM1.5.x及以上的版本，必须安装，建议选择Sun公司发行的Java版本。ssh 必须安装并且保证 sshd一直运行，以便用Hadoop 脚本管理远端Hadoop守护进程。5. 下载本文使用的是 hadoop-0.20.203.0，笔者当前的稳定版本。下载地址 http:/hadoop.apache.org/common/releases.html#Download6. 部署本文使用的是 4台 linux机器，hadoop.master 作为namenode节点，hadoop.second作为secondaryNameNode节点，hadoop.slave1 作为第一datanode

4、节点，hadoop.slave2作为第二个datanode节点。7. 环境配置7.1 公共配置（集群中所有机器都需要的配置）编辑环境变量建议直接编辑 /etc/profile文件增加 JAVA_HOME和HADOOP_HOME环境变量，具体事例如下所示： roothadoop # vi /etc/profile 增加如下几行代码export JAVA_OPTS=-Xms256m -Xmx512mexport JAVA_HOME=/usr/local/javaexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarex

5、port JRE_HOME=/usr/local/java/jreexport PATH=$JAVA_HOME/bin:$PATHexport HADOOP_HOME=/usr/local/hadoopexport PATH=$PATH:$HADOOP_HOME/bin笔者为了以后方便起停hadoop 把hadoop的bin也目录加到path中。 : wq 让环境变量即时生效 roothadoop # source /etc/profile 修改 hosts文件 roothadoop # vi /etc/hosts 在打开的文件中添加如下配置 192.168.2.17 hadoop.maste

6、r192.168.2.19 hadoop.slave1192.168.2.14 hadoop.slave2192.168.1.197 hadoop.second 增加如上几个域名，具体ip地址由各自的实际情况定，这里只列出笔者实验环境所需的。 Hadoop集群环境中使用域名访问的，所以需要把slave，master等域名加到每台服务器上。建立hadoop专属用户 Groupadd hadoop Useradd hadoop g hadoop Passwd hadoop Changing password for user hadoop.New UNIX password:123456Ret

7、ype new UNIX password:123456 安装软件安装JDK到/usr/local下命名为java将下载好的hadoop-0.20.3.tar.gz文件上传到master的/usr/local/hadooptar zxvf hadoop-0.20.3.tar.gz #解压文件设置hadoop目录的访问权限chown R hadoop:hadoop /usr/local/hadoop 改机器名把每台机器的机器名改成localhost。 Vi /etc/sysconfig/network 修改HOSTNAME = localhost 此处是没搞清楚为什么的地方，实验结果表明

8、必须改成localhost hadoop才能正常启动。具体原理目前还没有搞清楚，只知其然，其所以然有待于以后研究。7.2 每个节点不同的配置7.2.1 配置hadoop Hadoop的配置文件在早期版本中都放在同一个文件里 hadoop-site.xml,在新版本中hadoop把配置文件做了区分，分成了：Core-site.xml 配置Common组件的属性Hadoop-site.xml 配置HDFS组件的属性Mapred-site.xml 配置map-reduce组件的属性除了这3个配置文件以外还有 hadoop-env.xml 用来设置 hadoop用到的环境变量；masters文件

9、用来配置 SNN 节点地址注意必须配置域名；slaves文件配置所有DN节点的地址，必须是域名7.2.2 Core-site.xml 配置实例 DN节点以及 NN节点，snn节点配置一至： fs.default.name / 配置NN节点地址和端口号 hdfs:/hadoop.master:9000 /注意格式必须是 host:port的形式 hadoop.tmp.dir /hadoop临时目录用来存放nn临时文件 /usr/local/hadoop/tmp /该目录必须预先手工创建不能删除 fs.checkpoint.period /snn检查nn日志的时间周期 60 /单位是秒，正式

10、环境上建议配置成12小时 fs.checkpoint.size /snn每次从nn上读取的数据大小 67108864 /通常情况下默认值就可以7.2.3 Hdfs-site.xml NN 节点 dfs.name.dir / 指定name 镜像文件存放目录，如不指定则 /usr/local/hadoop/hdfs/name /默认为core-site中配置的tmp目录 dfs.replication /数据节点冗余备份的数量，由于实验只有2个 1 / NN 顾设置唯一，实际配置是可由实际情况 /配置，建议尽量大于3 dfs.permissions /是否需要角色权限验证，上传文件时会用到， fa

11、lse /如果为true ，需要绑定hadoop用户角色 dfs.secondary.http.address /SNN 的web访问地址。 hadoop.second:50090 DN节点配置 dfs.data.dir / 数据存放的目录，如果不写默认为 /usr/local/hadoop/hdfs/data / core-site中配置的tmp目录 dfs.replication /数据节点冗余备份的数量，由于实验只有2个 1 / NN 顾设置唯一，实际配置是可由实际情况 /配置，建议尽量大于3 dfs.permissions /是否需要角色权限验证，上传文件时会用到 false /如果

12、为true ，需要绑定hadoop用户角色 dfs.secondary.http.address /SNN 的web访问地址 hadoop.second:50090 SN节点的配置 dfs.name.dir / 指定name 镜像文件存放目录，如不指定则 /usr/local/hadoop/hdfs/name /默认为core-site中配置的tmp目录 dfs.replication /数据节点冗余备份的数量，由于实验只有2个 1 / NN 顾设置唯一，实际配置是可由实际情况 /配置，建议尽量大于3 dfs.permissions false dfs.http.address NN 的web

13、访问地址，注意此处和其他节点不同 hadoop.master:50070 Mapred-site.xml配置所有节点都一致 mapred.job.tracker hadoop.master:9001 /必须为host：port的形式，不能直接写ip Jobtracker的分布式的配置方法目前没设置成功，有待于继续研究 Masters文件配置和slaves文件配置所有节点全部一致所有节点的masters 里面均配置 SNN的域名所有节点的slaves 里面均配置所有DN的域名，一行一个DN Hadoop-env.sh 文件配置里面是hadoop运行时定义的环境变量其他的都可以用默认值，但是有一

14、项必须修改就是javahome环境变量，指定到实际的javahome目录。实例： export JAVA_HOME=/usr/local/java 8. hadoop无用户登录配置用 hadoop用户进入每台机器：进入 /home/hadoop 目录ssh-keygen -t rsa #建立ssh目录,敲回车到底1) 登录NN服务器2) 进入/home/hadoop/.ssh目录3) scp -r id_rsa.pub hadoophadoop.slave1:/home/hadoop/.ssh/authorized_keys#将master上的密钥传到slave1的hadoop用户下,重命名

15、为authorized_keys4) scp -r id_rsa.pub hadoophdoop.slave2:/home/hadoop/.ssh/authorized_keys#将master上的密钥传到slave2的hadoop用户下,重命名为authorized_keys5) scp -r id_rsa.pub hadoophadoop.second:/home/hadoop/.ssh/authorized_keys#将master上的密钥传到snn的hadoop用户下,重命名为authorized_keys6) 用hadoop用户进入hadoop.slave1 /home/hadoop

16、/.ssh目录7) cat id_rsa.pub authorized_keys#把自己的id_rsa.pub内容也放到authorized_keys中8) scp -r id_rsa.pub hadoophadoop.master:/home/hadoop/.ssh/authorized_keys_s1 #将slave1上的密钥传到master的hadoop用户下 9) 用hadoop用户进入hadoop.slave2 /home/hadoop/.ssh目录10) cat id_rsa.pub authorized_keys#把自己的id_rsa.pub内容也放到authorized_key

17、s中11) scp -r id_rsa.pub hadoophadoop.master:/home/hadoop/.ssh/authorized_keys_s2 #将slave2上的密钥传到master的hadoop用户下 12) 用hadoop用户进入hadoop.second /home/hadoop/.ssh目录13) cat id_rsa.pub authorized_keys#把自己的id_rsa.pub内容也放到authorized_keys中14) scp -r id_rsa.pub hadoophadoop.master:/home/hadoop/.ssh/authorized

18、_keys_second #将snn上的密钥传到master的hadoop用户下15) 在master，上执行以下操作 16) cat id_rsa.pub authorized_keys #将本地密钥添加authorized_keys 17) cat authorized_keys_s1 authorized_keys18) cat authorized_keys_s2 authorized_keys19) cat authorized_keys_second authorized_keys20) rm authorized_keys_second21) rm authorized_keys

19、_s122) rm authorized_keys_s2这样主节点和从节点之间就可以不用密码直接ssh访问特别注意 authorized_keys 文件的访问权限必须设置成600登录每台机器执行 chmod 600 authorized_keys9. 启动hadoop用hadoop用户进入nn服务器的 /usr/local/hadoop/hadoop-0.20.203.0/bin目录格式化hadoopHadoop namenode format 启动hadoop ./start-all.ssh ，不建议这样启动建议单独启动守护进程。 Hadoop日志目录/usr/local/hadoop/hadoop-0.20.203.0/logs启动完检查下启动日志，启动后到nn上查看hadoop-hadoop-namenode-master.loghadoop-hadoop-jobtracker-master.log因为我们的 nn和 jobtracker 部署在同一台机器上，所有master上会有2个日志登录snn节点服务器查看hadoop-hadoop-secondarynamenode-master.log这几个没错误就OK了这时候就可以进入管理页面看看了http:/192.168.2.15:50030/http:/192.168.2.15:50070/

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

基于hadoop的云计算 第一篇 安装配置篇.docx