栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 系统运维 > 运维 > Linux

搭建Hadoop集群

Linux 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

搭建Hadoop集群

搭建Hadoop集群
  1. 安装两个虚拟机(用户名尽量统一为hadoop)

    VMWare

    Ubuntu18.04.2

    jdk1.8.0_202

    hadoop-2.10.1

    master ip 192.168.80.138

    slave ip 192.168.80.128

  2. 配置节点ip,为后面ssh准备
    1. sudo gedit /etc/hosts

    2. 如下添加两个节点

    3. 在slave1上同样

  3. 设置root 账户
    1. 打开终端输入,sudo passwd root,
    2. 然后,输入密码并设置root的密码
    3. 最后在终端输入su,并输入干刚刚设置的密码,即可进入root
  4. 修改虚拟机名称,
    1. vim /etc/hostname
    2. 将ubuntu改成master(从机则改称slave1),重启后生效
  5. 安装jdk
    1. 官网下载jdk8,https://www.oracle.com/java/technologies/javase/javase8-archive-downloads.html

    2. 在/home/slave1里新建一个java文件夹放jdk , mkdir /home/hadoop/java/

    3. 将下载的jdk移动到上面新建的文件下,mv Downloads/jdk-8u202-linux-x64.tar.gz /home/hadoop/java/

    4. 进入到java文件夹内,解压tar -zxvf jdk-8u202-linux-x64.tar.gz

  6. 配置jdk
    1. gedit /etc/profile

    2. 在最后加上如下配置

      export JAVA_HOME=/home/hadoop/java/jdk1.8.0_202
      export JRE_HOME=/home/hadoop/java/jdk1.8.0_202/jre
      export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
      export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
      

    3. 使配置生效 soruce /etc/profile,然后重启,检查java -version是否跳出版本信息,如有则说明安装成功。

  7. 安装ssh
    1. 终端输入apt-get install openssh-server

    2. 检查ssh是否启动,终端输入ps -e |grep ssh,如果有sshd,说明已经启动,如果没有,输入service ssh start

    3. 生成公钥和密钥ssh-keygen -t rsa -P “” ,此步骤不需要再root里操作。生成的文件会放在/home/slave1/.ssh之下

    4. 进入到/home/slave1/.ssh,将id_rsa.pub加入到授权文件authorized_keys中。cat id_rsa.pub >> authorized_keys

    5. 登录localhost , ssh localhost , 推出 exit

  8. 以上的步骤在master和其他slave上做一模一样的操作
  9. 配置master无秘登录slave
    1. master主机中复制一份公钥到home. cp .ssh/id_rsa.pub ~/id_rsa_master.pub

    2. 把master的id_rsa_master.pub拷贝到slave1下。scp /home/hadoop/id_rsa_master.pub slave1:/home/hadoop/

    3. 在slave1下终端输入 sudo cat id_rsa_master.pub >> .ssh/authorized_keys

    4. 至此实现了master对slave1的免密登录

  10. 安装hadoop(master上)
    1. 下载Hadoop,我下载的 hadoop-2.10.1,下载到/home/hadoop

    2. 解压 tar -zxvf hadoop-2.10.1.tar.gz

    3. 在 hadoop-2.10.1内创建四个文件夹

      · hadoop-2.10.1/hdfs

      · hadoop-2.10.1/hdfs/tmp

      · hadoop-2.10.1/hdfs/name

      · hadoop-2.10.1/hdfs/data

  11. 配置hadoop的配置文件(master)
    1. 配置文件都在/hadoop2.10.1/etc/hadoop

    2. core-site.xml(注意配置中的路径对应自己的路径,就是之前创建的文件夹)

      
      
         hadoop.tmp.dir
         file:/home/hadoop/hadoop-2.10.1/hdfs/tmp
         A base for other temporary directories.
       
       
        io.file.buffer.size
         131072
       
       
         fs.defaultFS
         hdfs://master:9000
       
      
      
    3. hdfs-site.xml(注意路径对应,name和data)

      
      
       dfs.replication
         1
       
       
         dfs.namenode.name.dir
         file:/home/hadoop/hadoop-2.10.1/hdfs/name
         true
      
       
         dfs.datanode.data.dir
         file:/home/hadoop/hadoop-2.10.1/hdfs/data
         true
       
       
        dfs.namenode.secondary.http-address
         master:9001
       
       
         dfs.webhdfs.enabled
         true
       
       
         dfs.permissions
         false
       
      
      
    4. 复制mapred-site.xml.template,并命名为mapred-site.xml。然后加入配置

      
      
         mapreduce.framework.name
         yarn
       
      
      
    5. yarn-site.xml

      
      
      
      
       yarn.resourcemanager.address
         master:18040
       
       
         yarn.resourcemanager.scheduler.address
         master:18030
       
       
         yarn.resourcemanager.webapp.address
         master:18088
       
       
         yarn.resourcemanager.resource-tracker.address
         master:18025
       
       
         yarn.resourcemanager.admin.address
         master:18141
       
       
          yarn.nodemanager.aux-services
          mapreduce_shuffle
       
       
           yarn.nodemanager.auxservices.mapreduce.shuffle.class
           org.apache.hadoop.mapred.ShuffleHandler
       
      
      
      
    6. 配置hadoop-env.sh和yarn-env.sh的JAVA_HOME

    7. 配置slave文件

    8. 配置hadoop环境变量

      export HADOOP_HOME=/home/hadoop/hadoop-2.10.1
      export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
      export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
      

    9. 将master上的hadoop-2.10.1传到slave1上,然后同样配置slave1的hadoop环境变量(配置文件的路径如果不一样要改)

      scp -r /home/hadoop/hadoop-2.10.1/ slave1:/home/hadoop/
      

  12. 开启hadoop
    1. 初始化hadoop, hdfs namenode -format

    2. start-dfs.sh

    1. start-yarn.sh

    2. 上面两部也可以使用start-all.sh一步运行

    3. 在master输入jps,如下

    4. 在slave1输入jps,如下

  13. 搭建完成

    测试一下

    hadoop jar /home/hadoop/hadoop-2.10.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar  pi 10 10
    

  14. 增加节点
    1. 修改hosts

    2. 修改配置文件

      hdfs-site.xml 1->2

      slaves +slave2

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/460657.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号