Hadoop HA 高可用之旅

概述
HDFS-HA 集群搭建
- HDFS-HA 核心问题
HDFS-HA 手动模式
- 环境准备
- 规划集群
- 配置 HDFS-HA 集群
- - 官方地址
  - 在 opt 目录下创建一个 ha 文件夹
  - 将/opt/module/下的 hadoop-3.1.3 拷贝到/opt/ha 目录下（记得删除 data 和 log 目录）
  - 配置 core-site.xml
  - 配置 hdfs-site.xml
  - 分发配置好的 hadoop 环境到其他节点
- 启动 HDFS-HA 集群
- - 将 HADOOP_HOME 环境变量更改到 HA 目录(三台机器)
  - 在各个 JournalNode 节点上，输入以下命令启动 journalnode 服务
  - 在[nn1]上，对其进行格式化，并启动
  - 在[nn2]和[nn3]上，同步 nn1 的元数据信息
  - 启动[nn2]和[nn3]
  - 查看 web 页面显示
  - 在所有节点上，启动 datanode
  - 将[nn1]切换为 Active
  - 查看是否 Active
HDFS-HA 自动模式
- HDFS-HA 自动故障转移工作机制
- HDFS-HA 自动故障转移的集群规划
- 配置 HDFS-HA 自动故障转移
- - 具体配置
  - 启动
  - 验证
- 解决 NN 连接不上 JN 的问题
YARN-HA 配置
- YARN-HA 工作机制
- 配置 YARN-HA 集群
- - 环境准备
  - 规划集群
  - 核心问题
  - 具体配置
  - 启动 YARN
HADOOP HA 的最终规划

概述

所谓 HA（High Availablity），即高可用（7*24 小时不中断服务）

实现高可用最关键的策略是消除单点故障。 HA 严格来说应该分成各个组件的 HA机制： HDFS 的 HA 和 YARN 的 HA

NameNode 主要在以下两个方面影响 HDFS 集群 :

NameNode 机器发生意外，如宕机，集群将无法使用，直到管理员重启
NameNode 机器需要升级，包括软件、硬件升级，此时集群也将无法使用

HDFS HA 功能通过配置多个 NameNodes(Active/Standby) 实现在集群中对 NameNode 的热备来解决上述问题

如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将 NameNode 很快的切换到另外一台机器

HDFS-HA 集群搭建

当前 HDFS 集群的规划

cpucode100	cpucode101	cpucode102
NameNode	Secondarynamenode
DataNode	DataNode	DataNode

HA 的主要目的是消除 NameNode 的单点故障,需要将 HDFS 集群规划成以下模样

cpucode100	cpucode101	cpucode102
NameNode	NameNode	NameNode
DataNode	DataNode	DataNode

HDFS-HA 核心问题

保证三台 namenode 的数据一致

Fsimage : 让一台 nn 生成数据 , 让其他机器 nn 同步
Edits : 需要引进新的模块 JournalNode 来保证 edtis 的文件的数据一致性

同时只有一台 nn 是 active，其他所有是 standby

手动分配
自动分配

2nn 在 ha 架构中并不存在，定期合并 fsimage 和 edtis 的活谁来干

由 standby 的 nn 来干

nn 真的发生了问题，怎么让其他的 nn 上位干活

手动故障转移
自动故障转移

HDFS-HA 手动模式环境准备

修改 IP
修改主机名及主机名和 IP 地址的映射
关闭防火墙
ssh 免密登录
安装 JDK，配置环境变量等

规划集群

cpucode100	cpucode101	cpucode102
NameNode	NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode

配置 HDFS-HA 集群官方地址

http://hadoop.apache.org/

在 opt 目录下创建一个 ha 文件夹

cd /opt

sudo mkdir ha

将/opt/module/下的 hadoop-3.1.3 拷贝到/opt/ha 目录下（记得删除 data 和 log 目录）

cp -r /opt/module/hadoop-3.1.3 /opt/ha/

配置 core-site.xml


	
	
		fs.defaultFS
		hdfs://mycluster
	
	
	
		hadoop.tmp.dir
		/opt/ha/hadoop-3.1.3/data

配置 hdfs-site.xml


	
	
		dfs.namenode.name.dir
		file://${hadoop.tmp.dir}/name
	
	
	
		dfs.datanode.data.dir
		file://${hadoop.tmp.dir}/data
	
	
	
		dfs.journalnode.edits.dir
		${hadoop.tmp.dir}/jn
	
	
	
	
		dfs.nameservices
		mycluster
	
	
	
		dfs.ha.namenodes.mycluster
		nn1,nn2,nn3
	
	
	
	
		dfs.namenode.rpc-address.mycluster.nn1
		cpucode100:8020
	
	
		dfs.namenode.rpc-address.mycluster.nn2
		cpucode101:8020
	
	
		dfs.namenode.rpc-address.mycluster.nn3
		cpucode102:8020
	
	
	
	
		dfs.namenode.http-address.mycluster.nn1
		cpucode100:9870
	
	
		dfs.namenode.http-address.mycluster.nn2
		cpucode101:9870
	
	
		dfs.namenode.http-address.mycluster.nn3
		cpucode102:9870
	
	
	
	
		dfs.namenode.shared.edits.dir
		qjournal://cpucode100:8485;cpucode101:8485;cpucode102:8485/mycluster
	
	
	
		dfs.client.failover.proxy.provider.mycluster
		org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
	
	
	
	
		dfs.ha.fencing.methods
		sshfence
	
	
	
	
		dfs.ha.fencing.ssh.private-key-files
		/home/root/.ssh/id_rsa

分发配置好的 hadoop 环境到其他节点

xsync /ha

启动 HDFS-HA 集群将 HADOOP_HOME 环境变量更改到 HA 目录(三台机器) 在各个 JournalNode 节点上，输入以下命令启动 journalnode 服务在[nn1]上，对其进行格式化，并启动在[nn2]和[nn3]上，同步 nn1 的元数据信息启动[nn2]和[nn3] 查看 web 页面显示在所有节点上，启动 datanode 将[nn1]切换为 Active 查看是否 Active HDFS-HA 自动模式 HDFS-HA 自动故障转移工作机制

自动故障转移为 HDFS 部署增加了两个新组件： ZooKeeper 和 ZKFailoverController（ZKFC）进程，如图所示。 ZooKeeper 是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务

HDFS-HA 自动故障转移的集群规划

cpucode100	cpucode101	cpucode102
NameNode	NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
Zookeeper	Zookeeper	Zookeeper
ZKFC	ZKFC	ZKFC

配置 HDFS-HA 自动故障转移具体配置

hdfs-site.xml

	
	
		dfs.ha.automatic-failover.enabled
		true

core-site.xml

	
	
		ha.zookeeper.quorum
		cpucode100:2181,cpucode101:2181,cpucode102:2181

启动

关闭所有 HDFS 服务

stop-dfs.sh

启动 Zookeeper 集群

zkServer.sh start

启动 Zookeeper 以后，然后再初始化 HA 在 Zookeeper 中状态

hdfs zkfc -formatZK

启动 HDFS 服务

start-dfs.sh

zkCli.sh 客户端查看 Namenode 选举锁节点内容

get -s

验证

将 Active NameNode 进程 kill，查看网页端三台 Namenode 的状态变化

kill -9 namenode 的进程 id

解决 NN 连接不上 JN 的问题

自动故障转移配置好以后，然后使用 start-dfs.sh 群起脚本启动 hdfs 集群，有可能会遇到 NameNode 起来一会后，进程自动关闭的问题

查看报错日志，可分析出报错原因是因为 NameNode 连接不上 JournalNode，而利用 jps 命令查看到三台 JN 都已经正常启动，为什么 NN 还是无法正常连接到 JN 呢？这是因为 start-dfs.sh 群起脚本默认的启动顺序是先启动 NN，再启动 DN，然后再启动 JN，并且默认的 rpc 连接参数是重试次数为 10，每次重试的间隔是 1s，也就是说启动完 NN以后的 10s 中内， JN 还启动不起来， NN 就会报错了

core-default.xml

	
	
		ipc.client.connect.max.retries
		10
	
	
	
	
		ipc.client.connect.retry.interval
		1000

解决方案：遇到上述问题后，可以稍等片刻，等 JN 成功启动后，手动启动下三台 NN：

hdfs --daemon start namenode

core-site.xml里面适当调大上面的两个参数

	
	
		ipc.client.connect.max.retries
		20
	
	
	
		ipc.client.connect.retry.interval
		5000

YARN-HA 配置 YARN-HA 工作机制

配置 YARN-HA 集群环境准备

修改 IP
修改主机名及主机名和 IP 地址的映射
关闭防火墙
ssh 免密登录
安装 JDK，配置环境变量等
配置 Zookeeper 集群

规划集群

cpucode100	cpucode101	cpucode102
ResourceManager	ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager
Zookeeper	Zookeeper	Zookeeper

核心问题

当前 active rm 挂了，其他 rm 怎么将其他 standby rm 上位

核心原理跟 hdfs 一样，利用了 zk 的临时节点

前 rm 上有很多的计算程序在等待运行,其他的 rm 怎么将这些程序接手过来接着跑

rm 会将当前的所有计算程序的状态存储在 zk 中,其他 rm 上位后会去读取，然后接着跑

具体配置

yarn-site.xml


	
		yarn.nodemanager.aux-services
		mapreduce_shuffle
	
	
	
	
		yarn.resourcemanager.ha.enabled
		true
	
	
	
		yarn.resourcemanager.cluster-id
		cluster-yarn1
	
	
	
		yarn.resourcemanager.ha.rm-ids
		rm1,rm2,rm3
	
	
	
	
	
		yarn.resourcemanager.hostname.rm1
		cpucode100
	
	
	
		yarn.resourcemanager.webapp.address.rm1
		cpucode100:8088
	
	
	
		yarn.resourcemanager.address.rm1
		cpucode100:8032
	
	
	
		yarn.resourcemanager.scheduler.address.rm1
		cpucode100:8030
	
	
	
	yarn.resourcemanager.resource-tracker.address.rm1
	cpucode100:8031
	
	
	
	
	
		yarn.resourcemanager.hostname.rm2
		cpucode101
	
	
		yarn.resourcemanager.webapp.address.rm2
		cpucode101:8088
	
	
		yarn.resourcemanager.address.rm2
		cpucode101:8032
	
	
		yarn.resourcemanager.scheduler.address.rm2
		cpucode101:8030
	
	
		yarn.resourcemanager.resource-tracker.address.rm2
		cpucode101:8031
	
	
	
	
	
		yarn.resourcemanager.hostname.rm3
		cpucode102
	
	
	
		yarn.resourcemanager.webapp.address.rm3
		cpucode102:8088
	
	
	
		yarn.resourcemanager.address.rm3
		cpucode102:8032
	
	
	
		yarn.resourcemanager.scheduler.address.rm3
		cpucode102:8030
	
	
	
		yarn.resourcemanager.resource-tracker.address.rm3
		cpucode102:8031
	
	
	
	
		yarn.resourcemanager.zk-address
		cpucode100:2181,cpucode101:2181,cpucode102:2181
	
	
	
		yarn.resourcemanager.recovery.enabled
		true
	
	
	
		yarn.resourcemanager.store.class
		org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
	
	
	
	
		yarn.nodemanager.env-whitelist
		JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

同步更新其他节点的配置信息，分发配置文件

xsync hadoop/

启动 YARN

在 cpucode100 或者 cpucode101 中执行：

start-yarn.sh

查看服务状态

yarn rmadmin -getServiceState rm1

可以去 zkCli.sh 客户端查看 ResourceManager 选举锁节点内容

zkCli.sh

web 端查看 cpucode100:8088 和 cpucode101:8088 的 YARN 的状态

HADOOP HA 的最终规划

cpucode100	cpucode101	cpucode102
NameNode	NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
Zookeeper	Zookeeper	Zookeeper
ZKFC	ZKFC	ZKFC
ResourceManager	ResourceManager	ResourceManager
NodeManager	NodeManager	NodeManager

Hadoop HA 高可用之旅

大数据系统相关栏目本月热门文章