大数据Hadoop(一)：集群搭建--Hadoop3.3.1、CentOS8、HDFS集群、YARN集群最新保姆级教程

一、安装CentOS8虚拟机二、克隆虚拟机三、修改VMnet8的ip四、修改虚拟机ip（三台机器都做）五、设置主机名（三台机器都做）六、使用Xshell连接虚拟机七、ssh免密登录（node1做即可）八、时间同步（三台机器都做）九、上传并解压安装包（node1做即可）十、安装JDK（node1做即可）十一、编辑Hadoop配置文件（node1做即可）十二、分发配置十三、启动Hadoop集群十四、访问Hadoop Web UI页面

前言：本教程仅演示快速搭建Hdoop集群，并不对相关知识点与背景进行详细说明，电脑建议16G及以上内存，需要同时开启3台虚拟机，8G内存有点不够使用。
所需工具（提取码：0620 ）：VMware Workstation 16、Centos stream 8、Xshell、nodepad++（尽管运营者很恶心）、jdk8、hadoop3.3.1。

一、安装CentOS8虚拟机

二、克隆虚拟机

三、修改VMnet8的ip

2. 在windows任务栏搜索“网络连接”并打开，选择VMnet8，右击>属性>双击Internet协议版本4（tcp/ipv4），IP和DNS都改为手动，默认网关就填上面显示的网关，ip地址前三段与默认网关保持一致，后一段设置为1。DNS填写如图（为了方便）

四、修改虚拟机ip（三台机器都做）

IP规划，IP前三段与你自己的网关前三段相同，最后一段分别为10、20、30，后面所有的IP操作都要根据你自己的实际情况设置。

主机名	IP
node1	192.168.179.10
node2	192.168.179.20
node3	192.168.179.30

方式一：命令修改（不太建议）

以虚拟机node1为例，启动虚拟机，点击左上角活动，然后选择终端，在终端输以下命令，获取mac地址，按右键可以在终端粘贴命令。

ifconfig

输入下列命令，并输入密码,ens160是网卡名称，有的是ens33有的是eth0

sudo vim /etc/sysconfig/network-scripts/ifcfg-ens160

按i键进入编辑模式，修改或增加以下内容。此时只能用方向键移动光标。

修改
BOOTPROTO=none
ONBOOT=yes

增加
HWADDR=你的mac地址
IPADDR=你想设置的IP地址
PREFIX=24
GATEWAY=你的网关
DNS1=114.114.114.114
DNS2=8.8.8.8

如图所示

修改完毕后先按Esc键，再按英文冒号，输入wq!（英文叹号），强制写入并保存，然后输入reboot重启。

对另外两台虚拟机进行相同操作。

测试是否设置成功：

方式二：图形化界面修改

测试是否成功方法与上述相同

五、设置主机名（三台机器都做）

主机名设置

hosts映射

关闭防火墙

systemctl stop firewalld.service

systemctl disable firewalld.service

systemctl status firewalld

六、使用Xshell连接虚拟机

七、ssh免密登录（node1做即可）

八、时间同步（三台机器都做）

yum install chrony -y   #安装chrony
timedatectl set-timezone Asia/Shanghai   #修改时区
vim /etc/chrony.conf   #修改chrony.conf文件
pool ntp.aliyun.com iburst   #注释第三行，在第四行添加,保存并退出

systemctl restart chronyd

chronyc sources -v

timedatectl

九、上传并解压安装包（node1做即可）

集群规划。

主机	IP	运行角色
node1	192.168.179.10	namenode、datanode、resourcemanager 、nodemanager
node2	192.168.179.20	secondarynamenode、datanode、nodemanager
node3	192.168.179.30	datanode、nodemanager

mkdir -p /export/server/    #软件安装路径
mkdir -p /export/software/  #安装包存放路径

cd /export/software   #进入该目录
yum -y install lrzsz   #安装lrzsz
rz -E   #上传安装包
ll   #查看当前文件夹所包含的文件夹及文件

tar zxvf jdk-8u321-linux-x64.tar.gz -C /export/server/
tar zxvf hadoop-3.3.1.tar.gz -C /export/server/

cd /export/server
ll

十、安装JDK（node1做即可）

rpm -qa | grep java

rpm -e tzdata-java-2021e-1.el9.noarch javapackages-filesystem-6.0.0-3.el9.noarch java-11-openjdk-headless-11.0.12.0.7-3.el9.x86_64 java-11-openjdk-11.0.12.0.7-3.el9.x86_64 java-11-openjdk-devel-11.0.12.0.7-3.el9.x86_64

vim /etc/profile

在最末尾添加
export JAVA_HOME=/export/server/jdk1.8.0_321
export PATH=:$JAVA_HOME/bin:$PATH

source /etc/profile

java -version
javac

十一、编辑Hadoop配置文件（node1做即可）

Hadoop安装包目录结构

在node1中创建用于存放数据的data目录

mkdir -p /export/server/hadoop-3.3.1/data/namenode   #NameNode数据
mkdir -p /export/server/hadoop-3.3.1/data/datanode   #DataNode数据

安装好notepad++后打开，在顶部菜单栏点击插件>插件管理>搜索NppFTP并安装,安装好后点击Show NppFTP window，选择小齿轮，点击第二个，添加新连接。连接成功后双击根目录。在里面前往此目录/export/server/hadoop-3.3.1/etc/hadoop

修改hadoop-env.sh文件,在第55行添加下列代码并保存。

#配置JAVA_HOME
export JAVA_HOME=/export/server/jdk1.8.0_321
#设置用户以执行对应角色shell命令
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

修改core-site.xml（配置NameNode），第19行及后面所有代码替换为下列代码并保存。


	
	
	
	
		fs.defaultFS
		hdfs://node1:8020
	
	 
	
		hadoop.http.staticuser.user
		root

修改hdfs-site.xml文件（配置HDFS路径），第19行及后面所有代码替换为下列代码并保存。


	
		dfs.namenode.secondary.http-address
		node2:9868
	
	
	  dfs.namenode.name.dir
	  /export/server/hadoop-3.3.1/data/namenode
	  NameNode存储名称空间和事务日志的本地文件系统上的路径
	
	
	  dfs.datanode.data.dir
	  /export/server/hadoop-3.3.1/data/datanode
	  DataNode存储名称空间和事务日志的本地文件系统上的路径

修改mapred-site.xml文件（配置MapReduce），第19行及后面所有代码替换为下列代码并保存。


	
	
		mapreduce.framework.name
		yarn
	
	
	
		yarn.app.mapreduce.am.env
		HADOOP_MAPRED_HOME=${HADOOP_HOME}
	
	
	
		mapreduce.map.env
		HADOOP_MAPRED_HOME=${HADOOP_HOME}
	
	
	
		mapreduce.reduce.env
		HADOOP_MAPRED_HOME=${HADOOP_HOME}

修改yarn-site.xml文件（配置YARN），第15行及后面所有代码替换为下列代码并保存。


	
	
		yarn.resourcemanager.hostname
		node1
	
	
	
		yarn.nodemanager.aux-services
		mapreduce_shuffle
	
	
	
		yarn.scheduler.minimum-allocation-mb
		512
	
	
	
		yarn.scheduler.maximum-allocation-mb
		2048
	
	
	
		yarn.nodemanager.vmem-pmem-ratio
		4

修改workers文件，删除第一行localhost，然后添加以下三行。

node1
node2
node3

关闭notepad++，进入Xshell的node1会话，在node1上配置Hadoop环境变量。

vim /etc/profile
在末尾添加以下内容
export HADOOP_HOME=/export/server/hadoop-3.3.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

输入source /etc/profile使配置生效，输入hadoop检验环境变量是否生效。

十二、分发配置

scp -r /export node2:/
scp -r /export node3:/
scp -r /etc/profile node2:/etc/
scp -r /etc/profile node3:/etc/

十三、启动Hadoop集群

格式化HDFS，首次启动HDFS时，必须对其进行格式化操作。本质上是一些清理和准备工作，因为此时的HDFS在物理上还是不存在的。

hdfs namenode -format itcast-hadoop

在node1中输入命令ll /export/server/hadoop-3.3.1/data/namenode/current，查看是否格式化成功。

一键启动Hadoop集群

start-all.sh   #启动
stop-all.sh   #停止

检测是否启动成功，在三个节点分别输入命令jps。与下图相同则启动成功，进程分别是5个、4个、3个。

输入ll /export/server/hadoop-3.3.1/logs/查看启动日志。

十四、访问Hadoop Web UI页面

大数据Hadoop(一)：集群搭建--Hadoop3.3.1、CentOS8、HDFS集群、YARN集群最新保姆级教程

大数据系统相关栏目本月热门文章