(大数据方向）分布式实验五：mapreduce高可用环境配置（Yarn resouceManager HA)

Mapreduce是什么

集群环境说明

一.伪分布式（单节点）配置修改

（1）mapred-site.xml

（2）yarn-site.xml

二.完全分布式（高可用）配置修改

（1）mapred-site.xml

（2） yarn-site.xml

（3）分发节点

（4）免密钥

（5）启动相关进程

启动zookeeper

启动journalnode

启动hdfs

启动yarn

启动resourcemanager

进程图示

（6）查看端口

（7）浏览器查看

（8）运行wordcount

Mapreduce是什么

Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；
核心功能：将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上

集群环境说明
注：本例在 20192697-1伪分布式配置，20192697-2,20192697-3,20192697-4,20192697-5 进行高可用环境配置，
在20192697-1实践编程
伪分布式：20192697-1
完全分布式（高可用搭建）
主机名角色服务组件
20192697-2 NameNode（01） NameNode、JournalNode、Zookeeper、ZKFC
20192697-3 NameNode（02） NameNode、JournalNode、Zookeeper、ZKFC、DataNode、NodeManager
20192697-4 ResourceManager DataNode、JournalNode、Zookeeper、NodeManager、ResourceManager
20192697-5 ResourceManager DataNode、NodeManager、ResourceManager

一.伪分布式（单节点）配置修改

（1）mapred-site.xml

cd /etc/hadoop/hadoop/etc/hadoop

#进入自己hadoop的配置文件目录

ls
#查看该目录下有哪些文件与文件夹

mv mapred-site.xml.template  mapred-site.xml
#将mapred-site.xml.template重命名为mapred-site.xml
#如果自己已经是mapred-site.xml这个名字，忽略这一步

vim mapred-site.xml
#修改mapred-site.xml文件

 
         mapreduce.framework.name
         yarn

（2）yarn-site.xml

vim yarn-site.xml
#修改yarn-site.xml文件

 
         yarn.nodemanager.aux-services
         mapreduce_shuffle

二.完全分布式（高可用）配置修改（1）mapred-site.xml

首先启动集群规划中的四台虚拟机

cd /etc/hadoop2/hadoop/etc/hadoop
#同理先进入此文件夹

ls
#查看该目录下的文件

mv mapred-site.xml.template  mapred-site.xml 
#重命名

vim mapred-site.xml
#修改mapred-site.xml文件


         mapreduce.framework.name
         yarn

（2） yarn-site.xml

vim yarn-site.xml


         yarn.nodemanager.aux-services
         mapreduce_shuffle
     

     
         yarn.resourcemanager.ha.enabled
         true
     

     
         yarn.resourcemanager.cluster-id
         cluster1>
     
     
     
         yarn.resourcemanager.ha.rm-ids
         rm1,rm2
     

     
         yarn.resourcemanager.hostname.rm1
         20192697-4
     

     
          yarn.resourcemanager.hostname.rm2
          20192697-5
     

     
          yarn.resourcemanager.zk-address
          20192697-3:2181,20192697-4:2181,20192697-5:2181

（3）分发节点

scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop

#需要分发给3 4 5三个节点

scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#同上

（4）免密钥

如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤

（5）启动相关进程

启动zookeeper

#在3 4 5上启动zookeeper

zkServer.sh start

启动journalnode

#在2 3 4上启动journalnode

hadoop-daemon.sh start journalnode

启动hdfs

#在2 或者 3 上启动hdfs

start-dfs.sh

启动yarn

#在2上启动yarn

start-yarn.sh

启动resourcemanager

#在 4 和 5 上启动resourcemanager

yarn-daemon.sh start resourcemanager

进程图示

20192697-2

20192697-3

20192697-4

20192697-5

（6）查看端口

ss -nal 


#找到8088（这是默认端口号）

（7）浏览器查看

在浏览器上输入（20192697-3:8088)

选择左侧的Nodes，看到如下图画面

（8）运行wordcount

cd /etc/hadoop2/hadoop/share/hadoop/mapreduce
#进入该路径
ls
#找到hadoop-mapreduce-example-2.6.5.jar

mkdir test
cd test
vim hjq.txt


hadoop fs -mkdir /test
hadoop fs -put hjq.txt /test/

hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /test/hjq.txt /wordcount

hadoop fs -cat /wordcount/part-r-00000

(大数据方向）分布式实验五：mapreduce高可用环境配置（Yarn resouceManager HA)

一.伪分布式（单节点）配置修改

（2）yarn-site.xml

vim yarn-site.xml #修改yarn-site.xml文件

yarn.nodemanager.aux-services mapreduce_shuffle

（3）分发节点

scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop #需要分发给3 4 5三个节点 scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop #同上

（4）免密钥

如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤

（5）启动相关进程

启动zookeeper
#在3 4 5上启动zookeeper zkServer.sh start

启动journalnode
#在2 3 4上启动journalnode hadoop-daemon.sh start journalnode

启动hdfs
#在2 或者 3 上启动hdfs start-dfs.sh

启动yarn
#在2上启动yarn start-yarn.sh

启动resourcemanager
#在 4 和 5 上启动resourcemanager yarn-daemon.sh start resourcemanager

进程图示

20192697-2

20192697-3

20192697-4

20192697-5

（6）查看端口
ss -nal #找到8088（这是默认端口号）

（7）浏览器查看

在浏览器上输入（20192697-3:8088)

选择左侧的Nodes，看到如下图画面

大数据系统相关栏目本月热门文章

伪分布式：20192697-1
完全分布式（高可用搭建）
主机名	角色	服务组件
20192697-2	NameNode（01）	NameNode、JournalNode、Zookeeper、ZKFC
20192697-3	NameNode（02）	NameNode、JournalNode、Zookeeper、ZKFC、DataNode、NodeManager
20192697-4	ResourceManager	DataNode、JournalNode、Zookeeper、NodeManager、ResourceManager
20192697-5	ResourceManager	DataNode、NodeManager、ResourceManager

(大数据方向）分布式实验五：mapreduce高可用环境配置（Yarn resouceManager HA)

一.伪分布式（单节点）配置修改

（2）yarn-site.xml vim yarn-site.xml #修改yarn-site.xml文件 yarn.nodemanager.aux-services mapreduce_shuffle

（3）分发节点 scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop #需要分发给3 4 5三个节点 scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop #同上

（4）免密钥 如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤

（5）启动相关进程

启动zookeeper #在3 4 5上启动zookeeper zkServer.sh start

启动journalnode #在2 3 4上启动journalnode hadoop-daemon.sh start journalnode

启动hdfs #在2 或者 3 上启动hdfs start-dfs.sh

启动yarn #在2上启动yarn start-yarn.sh

启动resourcemanager #在 4 和 5 上启动resourcemanager yarn-daemon.sh start resourcemanager

进程图示 20192697-2 20192697-3 20192697-4 20192697-5

（6）查看端口 ss -nal #找到8088（这是默认端口号）

（7）浏览器查看 在浏览器上输入（20192697-3:8088) 选择左侧的Nodes，看到如下图画面

大数据系统相关栏目本月热门文章

（2）yarn-site.xml

vim yarn-site.xml #修改yarn-site.xml文件

yarn.nodemanager.aux-services mapreduce_shuffle

（3）分发节点

scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop #需要分发给3 4 5三个节点 scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop #同上

（4）免密钥

如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤

启动zookeeper
#在3 4 5上启动zookeeper zkServer.sh start

启动journalnode
#在2 3 4上启动journalnode hadoop-daemon.sh start journalnode

启动hdfs
#在2 或者 3 上启动hdfs start-dfs.sh

启动yarn
#在2上启动yarn start-yarn.sh

启动resourcemanager
#在 4 和 5 上启动resourcemanager yarn-daemon.sh start resourcemanager

进程图示

20192697-2

20192697-3

20192697-4

20192697-5

（6）查看端口
ss -nal #找到8088（这是默认端口号）

（7）浏览器查看

在浏览器上输入（20192697-3:8088)

选择左侧的Nodes，看到如下图画面