Hadoop学习之hadoop集群搭建（M1芯片 MacBookPro）心得

M1芯片 MacBookPro上搭建 hadoop完全分布式集群

电脑以及使用软件：

	MacBook pro（M1芯片，作为主机） 
	Parallels Desktop for Mac 17（虚拟机软件）
	Ubuntu 20.04（虚拟机上的操作系统）
	hadoop102、hadoop103、hadoop104（3台虚拟机当作三台服务器）

创建好第一台虚拟机后执行以下步骤

步骤一：修改主机名和用户名

	虚拟机创建时默认有图形化界面同时也给我默认了一个用户名Parallels和主机名

	首先进行主机名修改：

		sudo vim /etc/hostname

		进入后将里面的名字换成自己想改的主机名字（我改的是 hadoop102 ）

	其次修改用户名：

		1. 首先进入root账户： sudo su 

		（ 一定要先进入root然后将以下步骤一次性完成！！！ ）

		2. Ubuntu20.4自带的 vi很难用，可以安装新的 vim

			卸载自带的： sudo apt-get remove vim-common

			安装新的： sudo apt-get install vim

		3. 修改 shadow 文件： vim /etc/shadow

			将里面的所有原用户名换成自己想改的用户名
			
		4.修改用户目录
		
			mv /home/parallels  /home/更改的用户名
			
		5 修改 passwd 文件： vim /etc/passwd

			将里面的所有原用户名换成自己想改的用户名

		6. 修改 group 文件： vim /etc/group

			将里面的所有原用户名换成自己想改的用户名

		7. 最后重启

步骤二：更改 IP、安装 SSH

	先对虚拟机关机后将网络设置为 默认适配器

	后进入 /etc/netplan 目录下找到 01-network-manager-all.yaml 文件

	对其进行编辑： sudo vim 01-network-manager-all.yaml

network:
  version: 2
  renderer: NetworkManager
  ethernets:
    ens33:
      dhcp4: no    
      dhcp6: no    
      addresses: [192.168.26.102/24] # 配置的静态ip地址和掩码（ 我mac联网后的的ip 是 192.168.26。90）
      gateway4: 192.168.26.1   
      nameservers:
        addresses: [192.168.26.1, 8.8.8.8] # DNS服务器地址，多个DNS服务器地址

	编辑完毕后使其生效： sudo netplan apply

	输入 ifconfig 进行查看ip（如果没有 ifconfig命令 则 apt-get install ifconfig 下载）

	编辑文件：sudo vim /etc/hosts 

		在后面加上之后要用到的所有服务器的ip和主机名（三台）

	192.168.26.102 hadoop102

	192.168.26.103 hadoop103

	192.168.26.104 hadoop104

	安装ssh：sudo apt-get install openssh-server

	编辑文件：sudo vim /etc/ssh/sshd_config

	找到：   #PermitRootLogin prohibit-password 
	修改为： PermitRootLogin yes

步骤三：远程访问工具Tabby

	因为 Xshell 没有Mac版本，我在网上找到了一个比较好用的免费远程访问工具 Tabby
	
	下面这篇文章有详细的安装和使用教程

	https://blog.csdn.net/ygk004/article/details/121768955?spm=1001.2014.3001.5506

	在Tabby上连接 hadoop102

	进行主机映射： 在Mac的终端 输入 sudo vim /etc/hosts 后在文件里面加入ip和主机（同步骤二最后）

步骤四：关闭防火墙

	Ubuntu20.04 默认安装了UFW

	直接输入 sudo ufw  disable 关闭防火墙

步骤五：为自己的用户配置root权限

	修改文件： sudo vim /etc/sudoers

	找到这两行：

	# Allow members of group sudo to execute any command
	%sudo	ALL=(ALL:ALL) ALL

	在下面加上：

	自己的用户名 ALL=(ALL)    NOPASSWD:ALL

步骤六：克隆虚拟机

	将hadoop102关机之后，对其进行克隆两次命名为 hadoop103 和 hadoop104

	对克隆的这两台服务器进行主机名、IP修改（参照步骤一、二）

	在Tabby上连接 hadoop103 hadoop104

步骤七： jdk 和 hadoop 安装和配置

	利用 Tabby 上的 SFTP将 jdk 和 hadoop（官网自行下载） 传输到 /opt/software 目录下 （自己创建文件夹）

	解压jdk：tar -zxvf jdk文件名 -C /opt/module  

	配置环境变量：进入目录 /etc/profile.d  后编辑文件 sudo vim my_env.sh

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk-XXX（自己的jdk版本，路径一定要正确）
export PATH=$PATH:$JAVA_HOME/bin

	重新启用配置文件： source /etc/profile

	查看java是否安装完成：输入java 出现很多java信息且不报错则证明安装成功

	hadoop 安装与 jdk 步骤基本一致，环境变量不同：

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-XXX（自己的hadoop版本，路径一定要正确）
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

	查看hadoop是否安装完成：输入hadoop 出现很多hadoop信息且不报错则证明安装成功

步骤八：配置集群

	配置计划：
		
		hadoop102上： NameNode （HDFS）

		hadoop103上： ResourceManager（YARN）

		hadoop104上： SecondaryNameNode（HDFS）

	自定义配置文件：

		在hadoop目录下  /etc/hadoop下面 
	
	
	hdfs-site.xml  配置：





	dfs.namenode.http-address
	hadoop102:9870




	dfs.namenode.secondary.http-address
	hadoop104:9868

mapred-site.xml  配置：





	mapreduce.framework.name
	yarn





	mapreduce.jobhistory.address
	hadoop102:10020




	mapreduce.jobhistory.webapp.address
	hadoop102:19888

yarn-site.xml 配置


	yarn.nodemanager.aux-services
	mapreduce_shuffle





	yarn.resourcemanager.hostname
	hadoop103




	yarn.nodemanager.env-whitelist
	JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME




	yarn.log-aggregation-enable
	true




	yarn.log.server.url
	http://hadoop102:19888/jobhistory/logs




	yarn.log-aggregation.retain-seconds
	604800

 core-site.xml 配置





	fs.defaultFS
	hdfs://hadoop102:8020



	hadoop.tmp.dir
	/opt/module/hadoop-3.1.3/data




	hadoop.http.staticuser.user
	ljs

	配置workers  在hadoop目录下 /etc/hadoop下面编辑： vim workers  

	加入三台服务器的主机名（一行一个不能有空格）

hadoop102
hadoop103
hadoop104

hadoop102、hadoop103、hadoop104  三台服务器配置相同

步骤九：启动集群

	第一次启动集群需要节点格式化：进入hadoop目录之后输入： hdfs namenode -format
	
	在hadoop102上启动 HDFS ，进入hadoop目录之后输入：sbin/start-dfs.sh             

	之后可以进入web页面 在浏览器输入 http://hadoop102:9870

	在hadoop103上启动 YARN ，进入hadoop目录之后输入：sbin/start-yarn.sh

	之后可以进入web页面 在浏览器输入 http://hadoop103:8088

	浏览器页面都可以进去则证明成功

至此，完全分布式集群搭建完成。

Hadoop学习之hadoop集群搭建（M1芯片 MacBookPro）心得

大数据系统相关栏目本月热门文章