需要的安装包:
1.jdk压缩包
2.hadoop压缩包
百度云盘链接
开始搭建hadoop集群
1 集群规划安装VMware,使用三台虚拟机进行集群搭建,下面是每台虚拟机的规划:
2 网络配置 2.1 修改主机名和修改虚拟机IP地址,以及添加主机映射
修改虚拟机IP地址
vi /etc/sysconfig/network-scripts/ifcfg-ens33
添加主机映射(方便后面免密连接)
vi /etc/hosts
修改每一天主机名
vi /etc/hostname
3 安装SSH以及实现三台虚拟机相互免密登陆关闭防火墙
systemctl stop firewalld
1)配置ssh
(1)基本语法
ssh另一台电脑的IP地址(先配置master的ssh)
(2)ssh连接时出现Host key verification failed的解决方法
ssh slave1
- 如果出现如下内容
Are you sure you want to continue connecting (yes/no)?
- 输入yes,并回车(输入密码)
(3)退回到mater
(2)生成公钥和私钥
ssh-keygen -t rsa
然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)
(3)将公钥拷贝到要免密登录的目标机器上
ssh-copy-id master ssh-copy-id slave1 ssh-copy-id slave2
(4)在每一台虚拟机上重复刚刚的步骤
4.在master安装JDK
1.在Linux系统下的软件包导入
2.解压JDK
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
3.配置JDK环境变量
sudo vim /etc/profile.d/my_env.sh
添加如下内容
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
生效环境变量
source /etc/profile
5. 在master安装Hadoop
1.在Linux系统下的软件包导入
2.解压hadoop
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
2.配置hadoop环境并且生效
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
3.配置集群
进去配置目录
cd etc/hadoop/
内容如下
配置core-site.xml
fs.defaultFS hdfs://master:8020 hadoop.tmp.dir /opt/module/hadoop-3.1.3/data
配置hdfs-site.xml
dfs.namenode.http-address master:9870 dfs.namenode.secondary.http-address slave2:9868
配置yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname slave1
配置mapred-site.xml
mapreduce.framework.name yarn
配置slaves
vi slaves
4.在集群上分发配置好的Hadoop
scp -r 需要拷贝的地址 $user@$host:目的地址
5.启动集群
集群是第一次启动要格式化
hdfs namenode -format
第二次启动跳过上面
[root@master hadoop]#sbin/start-dfs.sh
[root@slave2 ~]#sbin/start-yarn.sh
(4)Web端查看HDFS的NameNode
(a)浏览器中输入:http://master:9870
(b)查看HDFS上存储的数据信息
(5)Web端查看YARN的ResourceManager
(a)浏览器中输入:http://slave1:8088
(b)查看YARN上运行的Job信息
需要访问web端口需要添加window主机映射
进入C:WindowsSystem32driversetc路径
打开hosts文件并添加如下内容,然后保存
ip地址 master ip地址 slave1 ip地址 slave2
结果:



