栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop环境搭建过程记录

Hadoop环境搭建过程记录

Hadoop环境搭建 配置jdk

参考上篇博文:https://editor.csdn.net/md/?articleId=121432910
本机路径:/usr/java/jdk1.8.0_121

安装&配置 上传hadoop

官网hadoop.apache.org下载hadoop,使用版本:3.2.2
上传hadoop-3.2.2.tar.gz到服务器/tmp下。 [ /tmp目录会定时清除没有使用的文件,默认30天。]

新建用户、工作目录

useradd hadoop
mkdir sourcecode software app log data lib tmp

移动解压

su -
mv /tmp/hadoop-3.2.2.tar.gz /home/hadoop/software/
chown hadoop:hadoop /home/hadoop/software/hadoop-3.2.2.tar.gz

su - hadoop
tar -zxvf /home/gulyas/hadoop-3.2.2.tar.gz -C /home/gulyas/app/ 【-C 解压到指定目录】

ln -s hadoop-3.2.2 hadoop

hadoop解压目录说明

bin      # hadoop相关命令
etc      # 配置文件
include
lib      # 存放Hadoop的本地库(对数据进行压缩解压缩功能)
libexec
sbin    # hadoop服务启动停止脚本
share   # 存放Hadoop的依赖jar包、文档、和官方案例
hadoop配置jdk

vi ./app/hadoop/etc/hadoop/hadoop-env.sh

# 加入以下配置
export JAVA_HOME=/usr/java/jdk1.8.0_121
配置主机名
hostnamectl set-hostname gargantua
ifconfig # 查看内网ip
vi /etc/hosts
172.16.69.205 gargantua  # 一定要是本机内网ip

# hosts中不能配置公网ip,否则可能导致9000端口程序访问不到。
# 重启也会导致NameNode起不来。
# 但是如果要配置其他主机NameNode的地址,那一定要配置其他主机的公网ip。

vi /etc/sysconfig/network
HOSTNAME= gargantua
配置伪分布式模式

hadoop的配置文件都在HADOOP_HOME/etc目录下:

core-site.xml

    
    
        fs.defaultFS
        hdfs://yogie.com:9000
    
    
    
        hadoop.tmp.dir
        /home/gulyas/tmp/hadoop-${user.name}
    

说明:hadoop.tmp.dir在没有配置的情况下已经启动过,如果直接改配置文件的此项配置,会导致NameNode服务启动失败。那是因为,hadoop的每个进程每次启动都会生成一个版本文件.

hdfs-site.xml

    
    
        dfs.replication
        1
    
    
    
        dfs.namenode.secondary.http-address
        gargantua:9966
    
    
    
        dfs.namenode.secondary.https-address
        gargantua:9966
    
    

如果一台机器挂载了多块物理磁盘,需要对dfs.datanode.data.dir做配置。
例如:一块磁盘的写能力30M/s,装载10快磁盘后,就是300M/s,写同样的数据,后者更高效。多块磁盘是为了存储空间更大,且高效率的读写IO。 肯定比单块磁盘更快。所以在生产上,DataNode的dfs.datanode.data.dir参数必须根据机器的实际情况配置。

hadoop-env.sh

pid文件说明:
pid文件记录集群中每个进程启动的pid编号。当执行sbin/stop-dfs.sh或stop-all.sh等命令的时候,hadoop会根据pid文件找到每个进程的pid,然后执行kill -9 pid来关闭进程。

export HADOOP_PID_DIR=/home/hadoop/tmp
mapred-site.xml

    
    
        mapreduce.framework.name
        yarn
    
    
    
        mapreduce.application.classpath
        $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*
    

yarn-site.xml

    
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
    
        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME
    
    
    
        yarn.resourcemanager.webapp.address
        yogie.com:8123
    

配置ssh
ssh-keygen # 一直回车
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

# 测试
ssh gargantua # 第一次需要输入yes
# 如果还需要输入密码,那么ssh配置或者600权限有问题。
启动 启动hdfs

格式化hdfs文件目录
cd app/hadoop
bin/hdfs namenode -format

启动主节点和数据节点
sbin/start-dfs.sh
【启动成功之后,使用jsp查看一下 、 或者使用ps查看】
ps -ef|grep hadoop
NameNode:存储的是数据的元数据,例如文件名称,路径,大小等信息。
DataNode:存储的是数据。

启动yarn

sbin/start-yarn.sh

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/629339.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号