Hadoop 扩缩_大数据系统

Hadoop 扩缩

Hadoop 扩容

配置新服务器的环境白名单 ( 可选 )添加新服务器数据均衡 Hadoop 缩容

黑名单

Hadoop 扩容

随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点

配置新服务器的环境

根据以前的文档进行相应的配置

https://blog.csdn.net/qq_44226094/article/details/122685082

拷贝 /opt/ha/hadoop 目录和 /etc/profile.d/my_env.sh 到 cpu104

scp -r /opt/ha/hadoop-3.1.3/ cpu104:/opt/ha/

sudo scp /etc/profile.d/my_env.sh cpu104:/etc/profile.d/my_env.sh

source /etc/profile

删除 cpu104 上 Hadoop 的历史数据， data 和 log 数据

rm -rf data/ logs/

白名单 ( 可选 )

白名单：表示在白名单的主机 IP 地址可以，用来存储数据

企业中：配置白名单，可以尽量防止黑客恶意访问攻击

在 NameNode 节点的 /opt/ha/hadoop-3.1.3/etc/hadoop 目录下创建 whitelist

vim whitelist

在 whitelist 中添加如下主机名称

cpu101
cpu102
cpu103

在 hdfs-site.xml 配置文件中增加 dfs.hosts 配置参数

	
	
		dfs.hosts
		/opt/ha/hadoop-3.1.3/etc/hadoop/whitelist

分发配置文件 whitelist， hdfs-site.xml

xsync hdfs-site.xml whitelist

第一次添加白名单必须重启集群

myhadoop.sh stop

myhadoop.sh start

不是第一次，只需要刷新 NameNode 节点

hdfs dfsadmin -refreshNodes

在 web 浏览器上查看 DN

添加新服务器

cpu104 直接启动 DataNode，即可关联到集群

hdfs --daemon start datanode

yarn --daemon start nodemanager

在白名单中增加新服役的服务器

vim whitelist

cpu104

分发

xsync whitelist

刷新 NameNode

hdfs dfsadmin -refreshNodes

yarn rmadmin -refreshNodes

数据均衡

新服役的服务器数据量比较少，需要执行集群均衡命令

设置数据均衡带宽 ( 默认带宽是1M/s )

hdfs dfsadmin -setBalancerBandwidth 10485760

StandbyException): Operation category WRITE is not supported in state standby. 解决方案 :

https://blog.csdn.net/qq_44226094/article/details/123631166

开启数据均衡命令

start-balancer.sh -threshold 10

10 : 集群中各个节点的磁盘空间利用率相差不超过 10%

停止数据均衡命令

stop-balancer.sh

由于 HDFS 需要启动单独的 Rebalance Server 来执行 Rebalance 操作，所以尽量不要在 NameNode 上执行 start-balancer.sh ，而是找一台比较空闲的机器

Hadoop 缩容黑名单

黑名单：在黑名单的主机 IP 地址不可以存储数据

企业中：配置黑名单，用来退役服务器

编辑 /opt/ha/hadoop-3.1.3/etc/hadoop 目录下的 blacklist 文件

vim blacklist

cpu104

在 hdfs-site.xml 配置文件中增加 dfs.hosts 配置参数

	
	
		dfs.hosts.exclude
		/opt/ha/hadoop-3.1.3/etc/hadoop/blacklist

分发配置文件 blacklist， hdfs-site.xml

xsync hdfs-site.xml blacklist

第一次添加黑名单必须重启集群

myhadoop.sh stop

myhadoop.sh start

不是第一次，只需要刷新 NameNode 节点

 hdfs dfsadmin -refreshNodes

yarn rmadmin -refreshNodes

检查 Web 浏览器，退役节点的状态为 decommission in progress（退役中），说明数据节点正在复制块到其他节点

等待退役节点状态为 decommissioned（所有块已经复制完成）, 再停止该节点及节点资源管理器

如果副本数是 3，服役的节点小于等于 3，是不能退役成功的，需要修改副本数后才能退役

hdfs --daemon stop datanode

yarn --daemon stop nodemanager

如果数据不均衡，可以用命令实现集群的再平衡

start-balancer.sh -threshold 10

Hadoop 扩缩

大数据系统相关栏目本月热门文章