目录
Mapreduce是什么
集群环境说明
一.伪分布式(单节点)配置修改
(1)mapred-site.xml
(2)yarn-site.xml
二.完全分布式(高可用)配置修改
(1)mapred-site.xml
(2) yarn-site.xml
(3)分发节点
(4)免密钥
(5)启动相关进程
启动zookeeper
启动journalnode
启动hdfs
启动yarn
启动resourcemanager
进程图示
(6)查看端口
(7)浏览器查看
(8)运行wordcount
Mapreduce是什么
Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;
核心功能:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上
集群环境说明
注:本例在
20192697-1伪分布式配置,20192697-2,20192697-3,20192697-4,20192697-5
进行高可用环境配置,
在20192697-1实践编程
伪分布式:20192697-1 完全分布式(高可用搭建) 主机名 角色 服务组件 20192697-2 NameNode(01) NameNode、JournalNode、Zookeeper、ZKFC 20192697-3 NameNode(02) NameNode、JournalNode、Zookeeper、ZKFC、DataNode、NodeManager 20192697-4 ResourceManager DataNode、JournalNode、Zookeeper、NodeManager、ResourceManager 20192697-5 ResourceManager DataNode、NodeManager、ResourceManager
一.伪分布式(单节点)配置修改
(1)mapred-site.xml
cd /etc/hadoop/hadoop/etc/hadoop
#进入自己hadoop的配置文件目录
ls
#查看该目录下有哪些文件与文件夹
mv mapred-site.xml.template mapred-site.xml
#将mapred-site.xml.template重命名为mapred-site.xml
#如果自己已经是mapred-site.xml这个名字,忽略这一步
vim mapred-site.xml
#修改mapred-site.xml文件
mapreduce.framework.name
yarn
(2)yarn-site.xml
vim yarn-site.xml
#修改yarn-site.xml文件
yarn.nodemanager.aux-services
mapreduce_shuffle
二.完全分布式(高可用)配置修改
(1)mapred-site.xml
首先启动集群规划中的四台虚拟机
cd /etc/hadoop2/hadoop/etc/hadoop
#同理先进入此文件夹
ls
#查看该目录下的文件
mv mapred-site.xml.template mapred-site.xml
#重命名
vim mapred-site.xml
#修改mapred-site.xml文件
mapreduce.framework.name
yarn
(2) yarn-site.xml
vim yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.ha.enabled
true
yarn.resourcemanager.cluster-id
cluster1>
yarn.resourcemanager.ha.rm-ids
rm1,rm2
yarn.resourcemanager.hostname.rm1
20192697-4
yarn.resourcemanager.hostname.rm2
20192697-5
yarn.resourcemanager.zk-address
20192697-3:2181,20192697-4:2181,20192697-5:2181
(3)分发节点
scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#需要分发给3 4 5三个节点
scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#同上
(4)免密钥
如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤
(5)启动相关进程
启动zookeeper
#在3 4 5上启动zookeeper
zkServer.sh start
启动journalnode
#在2 3 4上启动journalnode
hadoop-daemon.sh start journalnode
启动hdfs
#在2 或者 3 上启动hdfs
start-dfs.sh
启动yarn
#在2上启动yarn
start-yarn.sh
启动resourcemanager
#在 4 和 5 上启动resourcemanager
yarn-daemon.sh start resourcemanager
进程图示
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;
核心功能:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上
注:本例在 20192697-1伪分布式配置,20192697-2,20192697-3,20192697-4,20192697-5 进行高可用环境配置,
在20192697-1实践编程
伪分布式:20192697-1 完全分布式(高可用搭建) 主机名 角色 服务组件 20192697-2 NameNode(01) NameNode、JournalNode、Zookeeper、ZKFC 20192697-3 NameNode(02) NameNode、JournalNode、Zookeeper、ZKFC、DataNode、NodeManager 20192697-4 ResourceManager DataNode、JournalNode、Zookeeper、NodeManager、ResourceManager 20192697-5 ResourceManager DataNode、NodeManager、ResourceManager
一.伪分布式(单节点)配置修改
(1)mapred-site.xml
cd /etc/hadoop/hadoop/etc/hadoop
#进入自己hadoop的配置文件目录
ls
#查看该目录下有哪些文件与文件夹
mv mapred-site.xml.template mapred-site.xml
#将mapred-site.xml.template重命名为mapred-site.xml
#如果自己已经是mapred-site.xml这个名字,忽略这一步
vim mapred-site.xml
#修改mapred-site.xml文件
mapreduce.framework.name
yarn
(2)yarn-site.xml
vim yarn-site.xml
#修改yarn-site.xml文件
yarn.nodemanager.aux-services
mapreduce_shuffle
二.完全分布式(高可用)配置修改
(1)mapred-site.xml
首先启动集群规划中的四台虚拟机
cd /etc/hadoop2/hadoop/etc/hadoop
#同理先进入此文件夹
ls
#查看该目录下的文件
mv mapred-site.xml.template mapred-site.xml
#重命名
vim mapred-site.xml
#修改mapred-site.xml文件
mapreduce.framework.name
yarn
(2) yarn-site.xml
vim yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.ha.enabled
true
yarn.resourcemanager.cluster-id
cluster1>
yarn.resourcemanager.ha.rm-ids
rm1,rm2
yarn.resourcemanager.hostname.rm1
20192697-4
yarn.resourcemanager.hostname.rm2
20192697-5
yarn.resourcemanager.zk-address
20192697-3:2181,20192697-4:2181,20192697-5:2181
(3)分发节点
scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#需要分发给3 4 5三个节点
scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#同上
(4)免密钥
如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤
(5)启动相关进程
启动zookeeper
#在3 4 5上启动zookeeper
zkServer.sh start
启动journalnode
#在2 3 4上启动journalnode
hadoop-daemon.sh start journalnode
启动hdfs
#在2 或者 3 上启动hdfs
start-dfs.sh
启动yarn
#在2上启动yarn
start-yarn.sh
启动resourcemanager
#在 4 和 5 上启动resourcemanager
yarn-daemon.sh start resourcemanager
进程图示
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
cd /etc/hadoop/hadoop/etc/hadoop #进入自己hadoop的配置文件目录 ls #查看该目录下有哪些文件与文件夹 mv mapred-site.xml.template mapred-site.xml #将mapred-site.xml.template重命名为mapred-site.xml #如果自己已经是mapred-site.xml这个名字,忽略这一步 vim mapred-site.xml #修改mapred-site.xml文件mapreduce.framework.name yarn
(2)yarn-site.xml
vim yarn-site.xml
#修改yarn-site.xml文件
yarn.nodemanager.aux-services
mapreduce_shuffle
二.完全分布式(高可用)配置修改
(1)mapred-site.xml
首先启动集群规划中的四台虚拟机
cd /etc/hadoop2/hadoop/etc/hadoop
#同理先进入此文件夹
ls
#查看该目录下的文件
mv mapred-site.xml.template mapred-site.xml
#重命名
vim mapred-site.xml
#修改mapred-site.xml文件
mapreduce.framework.name
yarn
(2) yarn-site.xml
vim yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.ha.enabled
true
yarn.resourcemanager.cluster-id
cluster1>
yarn.resourcemanager.ha.rm-ids
rm1,rm2
yarn.resourcemanager.hostname.rm1
20192697-4
yarn.resourcemanager.hostname.rm2
20192697-5
yarn.resourcemanager.zk-address
20192697-3:2181,20192697-4:2181,20192697-5:2181
(3)分发节点
scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#需要分发给3 4 5三个节点
scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#同上
(4)免密钥
如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤
(5)启动相关进程
启动zookeeper
#在3 4 5上启动zookeeper
zkServer.sh start
启动journalnode
#在2 3 4上启动journalnode
hadoop-daemon.sh start journalnode
启动hdfs
#在2 或者 3 上启动hdfs
start-dfs.sh
启动yarn
#在2上启动yarn
start-yarn.sh
启动resourcemanager
#在 4 和 5 上启动resourcemanager
yarn-daemon.sh start resourcemanager
进程图示
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
vim yarn-site.xml #修改yarn-site.xml文件
yarn.nodemanager.aux-services mapreduce_shuffle
首先启动集群规划中的四台虚拟机
cd /etc/hadoop2/hadoop/etc/hadoop #同理先进入此文件夹 ls #查看该目录下的文件 mv mapred-site.xml.template mapred-site.xml #重命名 vim mapred-site.xml #修改mapred-site.xml文件mapreduce.framework.name yarn
(2) yarn-site.xml
vim yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.resourcemanager.ha.enabled
true
yarn.resourcemanager.cluster-id
cluster1>
yarn.resourcemanager.ha.rm-ids
rm1,rm2
yarn.resourcemanager.hostname.rm1
20192697-4
yarn.resourcemanager.hostname.rm2
20192697-5
yarn.resourcemanager.zk-address
20192697-3:2181,20192697-4:2181,20192697-5:2181
(3)分发节点
scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#需要分发给3 4 5三个节点
scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop
#同上
(4)免密钥
如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤
(5)启动相关进程
启动zookeeper
#在3 4 5上启动zookeeper
zkServer.sh start
启动journalnode
#在2 3 4上启动journalnode
hadoop-daemon.sh start journalnode
启动hdfs
#在2 或者 3 上启动hdfs
start-dfs.sh
启动yarn
#在2上启动yarn
start-yarn.sh
启动resourcemanager
#在 4 和 5 上启动resourcemanager
yarn-daemon.sh start resourcemanager
进程图示
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
vim yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.ha.enabled true yarn.resourcemanager.cluster-id cluster1> yarn.resourcemanager.ha.rm-ids rm1,rm2 yarn.resourcemanager.hostname.rm1 20192697-4 yarn.resourcemanager.hostname.rm2 20192697-5 yarn.resourcemanager.zk-address 20192697-3:2181,20192697-4:2181,20192697-5:2181
scp -r /etc/hadoop2/hadoop/etc/hadoop/mapred-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop #需要分发给3 4 5三个节点 scp -r /etc/hadoop2/hadoop/etc/hadoop/yarn-site.xml 20192697-3://etc/hadoop2/hadoop/etc/hadoop #同上
(4)免密钥
如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤
(5)启动相关进程
启动zookeeper
#在3 4 5上启动zookeeper
zkServer.sh start
启动journalnode
#在2 3 4上启动journalnode
hadoop-daemon.sh start journalnode
启动hdfs
#在2 或者 3 上启动hdfs
start-dfs.sh
启动yarn
#在2上启动yarn
start-yarn.sh
启动resourcemanager
#在 4 和 5 上启动resourcemanager
yarn-daemon.sh start resourcemanager
进程图示
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
如果在完全分布式或者高可用实验中四个节点都已经互相免密钥则可以跳过这一步骤
启动zookeeper
#在3 4 5上启动zookeeper
zkServer.sh start
启动journalnode
#在2 3 4上启动journalnode
hadoop-daemon.sh start journalnode
启动hdfs
#在2 或者 3 上启动hdfs
start-dfs.sh
启动yarn
#在2上启动yarn
start-yarn.sh
启动resourcemanager
#在 4 和 5 上启动resourcemanager
yarn-daemon.sh start resourcemanager
进程图示
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
#在2 3 4上启动journalnode hadoop-daemon.sh start journalnode
启动hdfs
#在2 或者 3 上启动hdfs
start-dfs.sh
启动yarn
#在2上启动yarn
start-yarn.sh
启动resourcemanager
#在 4 和 5 上启动resourcemanager
yarn-daemon.sh start resourcemanager
进程图示
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
#在2上启动yarn start-yarn.sh
启动resourcemanager
#在 4 和 5 上启动resourcemanager
yarn-daemon.sh start resourcemanager
进程图示
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
20192697-2
20192697-3
20192697-4
20192697-5
(6)查看端口
ss -nal
#找到8088(这是默认端口号)
(7)浏览器查看
在浏览器上输入(20192697-3:8088)
选择左侧的Nodes,看到如下图画面
(8)运行wordcount
cd /etc/hadoop2/hadoop/share/hadoop/mapreduce
#进入该路径
ls
#找到hadoop-mapreduce-example-2.6.5.jar
mkdir test
cd test
vim hjq.txt
hadoop fs -mkdir /test
hadoop fs -put hjq.txt /test/
在浏览器上输入(20192697-3:8088)
选择左侧的Nodes,看到如下图画面
cd /etc/hadoop2/hadoop/share/hadoop/mapreduce #进入该路径 ls #找到hadoop-mapreduce-example-2.6.5.jar
mkdir test cd test vim hjq.txt hadoop fs -mkdir /test hadoop fs -put hjq.txt /test/
hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /test/hjq.txt /wordcounthadoop fs -cat /wordcount/part-r-00000



