基于 Docker 搭建 Hadoop 平台

基于 Docker 搭建完全分布式 Hadoop 平台

前言

环境遇到的坑折腾实录

一、构建镜像

1. 准备JDK和Hadoop2. 构建centos-hadoop镜像二、启动容器三、集群搭建

1. 进入容器2. 配置主机名与IP映射（3个节点）3. ssh免密登录4. hadoop的相关配置5. 格式化hadoop6. 完全分布式hadoop搭建7. 验证完全分布式集群是否正常通过已有镜像极速搭建

前言

学校课程要求学习Hadoop，老师说要用VM虚拟机，搭建至少3个结点的集群，我寻思使用Docker不是更方便快捷吗，一来不用重复配置了，二来可能趁此机会学习Docker用法，于是就开始折腾了。

作此文，供学习记录。

如果只是希望尽快搭建好环境，可以参见文章 “通过已有镜像极速搭建” 部分，直接使用打包并配置好的镜像。

环境

Dockers20.10.7 + Hadoop3.3
其它工具：VS Code的Dockers插件

遇到的坑

折腾实录

本次折腾参考了这篇19年的文章：使用Docker搭建Hadoop集群(伪分布式与完全分布式)
注意，本文与上述参考文章有所不同（都是趟过的坑）

一、构建镜像 1. 准备JDK和Hadoop

mkdir centos-hadoop
cd centos-hadoop
# 上传hadoop和jdk，略

2. 构建centos-hadoop镜像

编写Dockerfile

sudo yum install vim
vim Dockerfile    #这里docker build时缺省名为Dockerfile

Dockerfile内容

FROM centos

RUN sed -i 's/mirrorlist/#mirrorlist/g' /etc/yum.repos.d/CentOS-Linux-*
RUN sed -i 's|#baseurl=http://mirror.centos.org|baseurl=http://vault.centos.org|g' /etc/yum.repos.d/CentOS-Linux-*
 
# 安装openssh-server和sudo软件包，并且将sshd的UsePAM参数设置成no  
RUN yum install -y openssh-server sudo
RUN sed -i 's/UsePAM yes/UsePAM no/g' /etc/ssh/sshd_config
#安装openssh-clients
RUN yum install -y openssh-clients

# 添加测试用户root，密码root，并且将此用户添加到sudoers里  
RUN echo "root:root" | chpasswd
RUN echo "root   ALL=(ALL)       ALL" >> /etc/sudoers
RUN ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key
RUN ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
# 启动sshd服务并且暴露22端口  
RUN mkdir /var/run/sshd
EXPOSE 22
CMD ["/usr/sbin/sshd", "-D"]

ADD centos-ssh-root-jdk/jdk-8u321-linux-x64.tar.gz /usr/local/
RUN mv /usr/local/jdk1.8.0_321 /usr/local/jdk1.8
ENV JAVA_HOME /usr/local/jdk1.8
ENV PATH $JAVA_HOME/bin:$PATH

ADD centos-ssh-root-jdk-hadoop/hadoop-3.3.1.tar.gz /usr/local
RUN mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
ENV HADOOP_HOME /usr/local/hadoop
ENV PATH $HADOOP_HOME/bin:$PATH

构建镜像

docker build -t centos-hadoop ./    # docker build  -t ImageName:TagName dir

查看镜像

docker image ls

二、启动容器

网络结构分别为：

hadoop0：192.168.1.2hadoop1：192.168.1.3hadoop2：192.168.1.4

创建子网

docker network create --subnet=192.168.1.0/24 hadoopnet

启动容器

docker run -itd --name hadoop0 --net hadoopnet --ip 192.168.1.2 --add-host hadoop0:192.168.1.2 --add-host hadoop1:192.168.1.3  --add-host hadoop1:192.168.1.4 -p 8088:8088 centos-hadoop #hadoop0对外开放端口8088
docker run -itd --name hadoop1 --net hadoopnet --ip 192.168.1.3 --add-host hadoop0:192.168.1.2 --add-host hadoop1:192.168.1.3  --add-host hadoop1:192.168.1.4 centos-hadoop
docker run -itd --name hadoop2 --net hadoopnet --ip 192.168.1.4 --add-host hadoop0:192.168.1.2 --add-host hadoop1:192.168.1.3  --add-host hadoop1:192.168.1.4 centos-hadoop

docker ps # 查看刚刚启动的3个容器

三、集群搭建

ps：以下操作均是对hadoop0主节点配置

1. 进入容器

docker exec -it hadoop0 /bin/bash

2. 配置主机名与IP映射（3个节点）

向hosts检查以下内容（hosts文件目录：/etc/hosts）
由于在启动容器时已经配置了主机名与IP映射，此时hosts文件应当已存在以下内容

192.168.1.2     hadoop0
192.168.1.3     hadoop1
192.168.1.4     hadoop2

3. ssh免密登录

ssh-keygen
#剩下的一路回车即可
ssh-copy-id hadoop0
#根据提示输入yes以及主机密码，开头我们设置的是root/root

ssh-copy-id hadoop1
ssh-copy-id hadoop2

4. hadoop的相关配置

进入/usr/local/hadoop/etc/hadoop目录，涉及的配置文件有：core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、workers

hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8          # 修改JAVA_HOME(往该文件内添加即可)

core-site.xml


        
                fs.defaultFS
                hdfs://hadoop0:9000
        
        
                hadoop.tmp.dir
                /usr/local/hadoop/tmp
        
         
                 fs.trash.interval
                 1440

hdfs-site.xml


    
        dfs.replication
        1
    
    
        dfs.permissions
        false

yarn-site.xml




        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
         
                yarn.log-aggregation-enable 
                true 
        
        
                The hostname of the RM.
                yarn.resourcemanager.hostname
                hadoop0

mapred-site.xml


    
        mapreduce.framework.name
        yarn

5. 格式化hadoop

进入进入到/usr/local/hadoop目录下
！！！格式化操作不能重复执行

bin/hdfs namenode -format

6. 完全分布式hadoop搭建

进入/usr/local/hadoop

修改workers文件
（若为老版本的hadoop，则是slaves文件）
删除原来的所有内容，修改为如下

hadoop1
hadoop2

拷贝至其他两个节点

scp -rq /usr/local/hadoop/etc hadoop1:/usr/local/hadoop
scp -rq /usr/local/hadoop/etc hadoop2:/usr/local/hadoop

添加变量
进入到目录/usr/local/hadoop/sbin

## 在start-yarn.sh、stop-yarn.sh顶部添加
YARN_RESOURCEMANAGER_USER=root
HDFS_DATANODE_SECURE_USER=yarn
YARN_NODEMANAGER_USER=root

## 在start-dfs.sh、stop-dfs.sh顶部添加
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

启动hadoop分布式集群服务

执行sbin/start-all.sh

中止hadoop分布式集群服务

执行sbin/stop-all.sh

7. 验证完全分布式集群是否正常

hadoop0主节点需要有以下进程

hadoop1、hadoop2从节点需要有以下进程

通过已有镜像极速搭建

待完成…

基于 Docker 搭建 Hadoop 平台

大数据系统相关栏目本月热门文章