hadoop学习之路笔记三

文章目录

配置历史服务器配置日志的聚集集群启动/停止方式总结编写Hadoop集群常用脚本hadoop版本常用对比

前言：接上一个笔记，小白继续学习hadoop，有啥错误请大佬指教。自己没啥基础，就只能跟着某站尚硅谷学3.x版本的hadoop，边学边记笔记，加深一些印象吧

配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下

1.配置mapred-site.xml

[sdy@hadoop102 hadoop]$ vim mapred-site.xml

在该文件里面增加如下配置。


    mapreduce.jobhistory.address
    hadoop102:10020




    mapreduce.jobhistory.webapp.address
    hadoop102:19888

2.分发配置到hadoop103 hadoop104上

[sdy@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

3.在hadoop102启动历史服务器

[sdy@hadoop102 hadoop]$ mapred --daemon start historyserver

4.查看历史服务器是否启动

[atguigu@hadoop102 hadoop]$ jps

5.查看JobHistory

http://hadoop102:19888/jobhistory

配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

1.配置yarn-site.xml

[sdy@hadoop102 hadoop]$ vim yarn-site.xml


    yarn.log-aggregation-enable
    true


  
    yarn.log.server.url  
    http://hadoop102:19888/jobhistory/logs



    yarn.log-aggregation.retain-seconds
    604800

2.分发配置

[sdy@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

3.关闭NodeManager、ResourceManager和HistoryServer

[sdy@hadoop103 ~]$ stop-yarn.sh
[sdy@hadoop102 hadoop]$ mapred --daemon stop historyserver

4.启动NodeManager、ResourceManage和HistoryServer

[sdy@hadoop103 ~]$ start-yarn.sh
[sdy@hadoop102 hadoop]$ mapred --daemon start historyserver

集群启动/停止方式总结

1.各个模块分开启动/停止（配置ssh是前提）常用

整体启动/停止HDFS

start-dfs.sh/stop-dfs.sh

整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

2.各个服务组件逐一启动/停止

分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

启动/停止YARN

yarn --daemon start/stop resourcemanager/nodemanager

编写Hadoop集群常用脚本

1.Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh

[sdy@hadoop102 bin]$ cd /home/sdy/bin
[sdy@hadoop102 bin]$ vim myhadoop.sh

#!/bin/bash
if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

保存后退出，然后赋予脚本执行权限

[sdy@hadoop102 bin]$ chmod +x myhadoop.sh

2.查看三台服务器Java进程脚本：jpsall

[atguigu@hadoop102 bin]$ vim jpsall

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

保存后退出，然后赋予脚本执行权限

[atguigu@hadoop102 bin]$ chmod +x jpsall

3.分发/home/atguigu/bin目录，保证自定义脚本在三台机器上都可以使用

[sdy@hadoop102 bin]$ xsync /home/sdy/bin/

4.测试脚本是否正常

测试jpsall脚本

测试myhadoop脚本

hadoop版本常用对比

常用端口号

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020 / 9000	8020 / 9000/9820
NameNode HTTP UI	50070	9870
MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

常用的配置文件

3.x	core-site.xml	hdfs-site.xml	yarn-site.xml	mapred-site.xml	works
2.x	core-site.xml	hdfs-site.xml	yarn-site.xml	mapred-site.xml	slaves

																  未完待续...........

往期笔记：

3台云腾讯云开始hadoop学习之路笔记一
3台云腾讯云开始hadoop学习之路笔记二

hadoop学习之路笔记三

大数据系统相关栏目本月热门文章