- HDFS-HA 自动故障转移工作机制
- HDFS-HA 自动故障转移的集群规划
- 配置 HDFS-HA 自动故障转移
自动故障转移为 HDFS 部署增加了两个新组件:ZooKeeper 和 ZKFailoverController(ZKFC)进程,如图所示。ZooKeeper 是维护少量协调数据,通知客户端这些数据的改变和监视客户端故障的高可用服务。
HDFS-HA 自动故障转移的集群规划| hadoop102 | hadoop103 | hadoop104 |
|---|---|---|
| NameNode | NameNode | NameNode |
| JournalNode | JournalNode | JournalNode |
| DataNode | DataNode | DataNode |
| Zookeeper | Zookeeper | Zookeeper |
| ZKFC | ZKFC | ZKFC |
1)具体配置
(1)在 hdfs-site.xml 中增加
dfs.ha.automatic-failover.enabled true
(2)在 core-site.xml 文件中增加
ha.zookeeper.quorum hadoop102:2181,hadoop103:2181,hadoop104:2181
(3)修改后分发配置文件
[root@hadoop102 etc]$ pwd /opt/ha/hadoop-3.1.3/etc [root@hadoop102 etc]$ xsync hadoop/
2)启动
(1)关闭所有 HDFS 服务:
[root@hadoop102 ~]$ stop-dfs.sh
(2)启动 Zookeeper 集群:
[root@hadoop102 ~]$ zkServer.sh start [root@hadoop103 ~]$ zkServer.sh start [root@hadoop104 ~]$ zkServer.sh start
(3)启动 Zookeeper 以后,然后再初始化 HA 在 Zookeeper 中状态:
[root@hadoop102 ~]$ hdfs zkfc -formatZK
(4)启动 HDFS 服务:
[root@hadoop102 ~]$ start-dfs.sh
启动之前,查看start-dfs.sh 和 stop-dfs.sh 里面 确保配置如下内容,方可启动,否则会报错
TANODE_USER=root HDFS_JOURNALNODE_USER=root HADOOP_SECURE_DN_USER=hdfs HDFS_NAMENODE_USER=root HDFS_SECONDARYNAMENODE_USER=root HDFS_ZKFC_USER=root
(5)可以去 zkCli.sh 客户端查看 Namenode 选举锁节点内容:
[zk: localhost:2181(CONNECTED) 7] get -s /hadoop-ha/mycluster/ActiveStandbyElectorLock myclusternn2 hadoop103 �>(�> cZxid = 0x10000000b ctime = Tue Jul 14 17:00:13 CST 2020 mZxid = 0x10000000b mtime = Tue Jul 14 17:00:13 CST 2020 pZxid = 0x10000000b cversion = 0 dataVersion = 0 aclVersion = 0 ephemeralOwner = 0x40000da2eb70000 dataLength = 33 numChildren = 0
如下图:
3)验证
(1)将 Active NameNode 进程 kill,查看网页端三台 Namenode 的状态变化
[root@hadoop102 ~]$ kill -9 namenode 的进程 id



