Hadoop_大数据系统

大数据简介 6V特点

来源：数据库、爬虫、网页埋点、手动录入等种类：文本、图片、音频、视频、流媒体等样式：结构化数据、半结构化数据、非结构化数据

Hadoop简介概述

Hadoop是Yahoo!公司开发的后来贡献给了Apache的一套开源的、可靠的、可扩展的分布式框架Hadoop提供了简单的编程模型来对大量的数据进行分布式计算Hadoop能够轻松的从一台服务器扩展到上千台服务器，每一台服务器都能进行存储和计算Hadoop提供了探测和处理异常的机制来保证高可用Hadoop之父：Doug Cutting(道格.卡汀)Hadoop的版本非常混乱，导致依赖Hadoop的其他框架和组件之间也非常乱 - Hadoop2.x和Hadoop1.x不兼容，Hadoop3.x和Hadoop2.x部分兼容模块

Hadoop Commin：公共模块Hadoop Distributed File System(HDFS)：分布式文件存储系统Hadoop YARN：任务调度和集群资源管理Hadoop MapReduce：基于YARN的分布式计算系统搭建

安装JDK1.8

vim  /etc/profile.d/javahome.sh

export JAVA_HOME=/home/java1.8
export PATH=$JAVA_HOME/bin:$PATH

source /etc/profile.d/javahome.sh

关闭防火墙

# 临时关闭
systemctl stop firewalld
# 永久关闭
systemctl disable firewalld

在Hadoop集群中，不建议主机名中出现 - 或者 _，所以需要修改主机名

vim /etc/hostname
# 修改对应的主机名，例如分别为 Hadoop01 Hadoop02 Hadoop03

将主机名和IP进行映射

vim /etc/hosts
#添加 IP 主机名，例如
192.168.65.107 hadoop01
192.168.65.108 hadoop02
192.168.65.109 hadoop03

关闭SELINUX

vim /etc/sysconfig/selinux
#修改SELINUX的值为disabled
SELINUX=disabled

重启

reboot

免密登录

# 产生密钥
ssh-keygen
# 拷贝公钥
ssh-copy-id root@hadoop01
# 回车之后，输入yes确定连接，然后回车输入密码
ssh hadoop01
# 回车之后如果不需要密码，说明已经免密登录成功，输入logout退出登录
ssh-copy-id root@hadoop02
ssh hadoop02
ssh-copy-id root@hadoop03
ssh hadoop03

进入安装目录，下载Hadoop安装包

cd /home/software
# 下载
curl -O https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz
# 解压
tar -xvf hadoop-3.1.3.tar.gz

进去Hadoop的配置目录

cd hadoop-3.1.3/etc/hadoop/

编辑文件

vim hadoop-env.sh
# 在文件中添加
export JAVA_HOME=/home/software/jdk1.8
export HADOOP_CONF_DIR=/home/software/hadoop-3.1.3/etc/hadoop
# 保存退出，重新生效
source hadoop-env.sh

编辑文件

vim core-site.xml

<--HDFS的服务地址-->

        fs.default.name
        hdfs://hadoop01:9000

<--数据存储路径-->

        hadoop.tmp.dir
        /home/software/hadoop-3.1.3/tmp

<--代理用户-->

        hadoop.http.staticuser.user
        root

<--代理主机-->

        hadoop.proxyuser.root.hosts
        *

<--代理用户组-->

        hadoop.proxyuser.root.groups
        *

编辑文件

vim hdfs-site.xml

在文件中添加：


        dfs.namenode.http-address
        hadoop01:9870



        dfs.namenode.secondary.http-address
        hadoop02:9868



        dfs.replication
        1

编辑文件

vim mapred-site.xml

在文件中添加


        mapreduce.framework.name
        yarn



        yarn.app.mapreduce.am.env
        HADOOP_MAPRED_HOME=/home/software/hadoop-3.1.3



        mapreduce.map.env
        HADOOP_MAPRED_HOME=/home/software/hadoop-3.1.3



        mapreduce.reduce.env
        HADOOP_MAPRED_HOME=/home/software/hadoop-3.1.3

编辑文件

vim yarn-site.xml

在配置文件中添加：


        yarn.nodemanager.aux-services
        mapreduce_shuffle



        yarn.resourcemanager.hostname
        hadoop03



        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_MAPRED_HOME,HADOOP_CONF_DIR,HADOOP_YARN_HOME,CLASSPATH_PREPEND_DISTCACHE



        yarn.scheduler.minimum-allocation-mb
        512



        yarn.scheduler.maximum-allocation-mb
        4096



        yarn.nodemanager.resource.memory-mb
        4096



        yarn.nodemanager.pmem-check-enabled
        false



        yarn.nodemanager.vmem-check-enabled
        false

编辑文件

vim workers
# 删除里面的localhost,将三台主机的主机名添加进去
hadoop01
hadoop02
hadoop03

进去扩展命令目录

cd /home/software/hadoop-3.1.3/sbin/

编辑文件

vim start-dfs.sh
# 在文件头部添加
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=root

编辑文件

vim stop-dfs.sh
# 在文件头部添加
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=root

编辑文件

vim start-yarn.sh
# 在文件头部添加
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root
HDFS_DATANODE_SECURE_USER=root

编辑文件

vim stop-yarn.sh
# 在文件头部添加
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root
HDFS_DATANODE_SECURE_USER=root

历史服务

编辑文件

cd /home/software/hadoop-3.1.3/etc/hadoop/
vim mapred-site.xml

在文件末尾添加


        mapreduce.jobhistory.address
        hadoop02:10020



        mapreduce.jobhistory.webapp.address
        hadoop02:19888

日志汇聚

编辑文件

vim yarn-site.xml

在文件中添加


        yarn.log-aggregation-enable
        true



        yarn.log.server.url
        http://hadoop02:19888/jobhistory/logs



        yarn.log-aggregation.retain-seconds
        604800

分发和启动

远程分发

cd /home/software/
scp -r hadoop-3.1.3 root@hadoop02:$PWD
scp -r hadoop-3.1.3 root@hadoop03:$PWD

配置环境变量

vim /etc/profile.d/hadoophome.sh
# 在文件中添加
export HADOOP_HOME=/home/software/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 保存退出，重新生效
source /etc/profile.d/hadoophome.sh

校验环境变量是否配置正确

hadoop version

第一次启动Hadoop之前，需要先进行格式化

hdfs namenode -format

如果出现Storage directory /home/software/hadoop-3.1.3/tmp/dfs/name has been successfully formatted则表示格式化成功

在第一个节点上启动HDFS

start-dfs.sh

在第三个节点上启动YARN

start-yarn.sh

在第二个节点上启动历史服务器

mapred --daemon start historyserver

通过jps命令查看

# 第一个节点上
Jps
NodeManager
DataNode
NameNode
# 在第二个节点上
SecondaryNameNode
Jps
NodeManager
DataNode
JobHistoryServer
# 在第三个节点上
Jps
DataNode
ResourceManager
NodeManager

注意问题

如果Command not found，那么说明环境变量配置错误，或者配置之后没有进行source

如果启动之后，发现缺少了进行，那么可以通过对应的命令来试着单独启动

hdfs --daemon start namenode
hdfs --daemon start datanode
hdfs --daemon start secondarynamenode
yarn --daemon start resourcemanager
yarn --daemon start nodemanager
mapred --daemon start historyserver

如果单独启动依然失败，那么查看/home/software/hadoop-3.1.3/logs/hadoop-root-xxx-xxx.log，在这个日志文件中来查看启动失败的原因

搭建方式

单机模式：在一台服务器上安装，只能启动MapReduce模块伪分布式：在一台服务器上安装，通过多个进程来模拟集群环境，启动Hadoop的大部分服务完全分布式(非高可用)：在集群上安装，能够启动Hadoop的所有模块完全分布式(高可用)：在上诉方式的基础上保证集群的运行

Hadoop

大数据系统相关栏目本月热门文章