栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据学习教程SD版—第二篇【Hadoop搭建】

大数据学习教程SD版—第二篇【Hadoop搭建】

前情提醒:linux基本命令和简单的shell脚本,已Get!

文章目录
  • 2.hadoop 3.x/2.x
    • Hadoop 简介
      • 2.1 三大发行版本
      • 2.2 优势
      • 2.3 组成
      • 2.4 HDFS 文件系统
      • 2.5 YARN 资源管理工具
      • 2.6 MapReduce 计算框架
    • Hadoop 模板机搭建
      • 2.7 模板机搭建
      • 2.8 远程访问工具
      • 2.9 模板机环境配置
      • 2.10 模板机克隆
    • Hadoop 集群部署
      • 2.11 Hadoop 安装
      • 2.12 Hadoop 集群文件拷贝
      • 2.13 Hadoop SSH免密登录配置
      • 2.14 Hadoop 集群配置
      • 2.15 Hadoop 集群启动测试
      • 2.16 Hadoop集群崩溃处理
      • 2.17 Hadoop 历史服务器配置
      • 2.18 Hadoop 日志聚集功能配置
      • 2.19 Hadoop 编写常用脚本
      • 2.20 Hadoop 常用端口号
      • 2.21 Hadoop 常用配置文件
      • 2.22 Hadoop 集群时间同步配置

2.hadoop 3.x/2.x

Hadoop 分布式系统基础架构,主要解决数据的存储和计算,现Hadoop广义上 指的是Hadoop生态圈

Hadoop 简介 2.1 三大发行版本
  1. Apache 2006
  2. Cloudera CDH 2008
  3. Hortonworks HDP 2011

Hortonworks 和Cloudera 联合,2018推出 CDP

2.2 优势
  1. 高可靠性:底层维护多个副本
  2. 高扩展性:动态扩展节点,动态删除节点
  3. 高效性:并行计算
  4. 高容错性:失败任务自动重新分配
2.3 组成
  1. Common : 辅助工具
  2. HDFS: 数据存储
  3. YARN: 资源调度
  4. MapReduce: 计算
2.4 HDFS 文件系统
  1. NameNode[NN] 名称节点

  2. DataNode[DN] 数据节点

  3. Secondary NameNode[2NN] 第二名称节点

2.5 YARN 资源管理工具
  1. ResourceManager[RM] 集群资源管理器

  2. NodeManager[NM] 节点资源管理器

  3. ApplicationMaster[AM] 应用程序

  4. Container 运行程序的资源容器

2.6 MapReduce 计算框架
  1. Map 映射,一系列转换操作

  2. Reduce 汇总

Hadoop 模板机搭建 2.7 模板机搭建
  1. 硬件
  2. 软件
  3. IP配置
  • VMware 网络配置
  • Windows网络配置
  • Linux主机网络配置[/etc/sysconfig/network-scripts/ifcfg-xxx]
BOOTPROTO='static'

IPADDR=xxx.xxx.xx.xxx
GATEWAY=xxx.xxx.xx.x
DNS1=xxx.xxx.xx.x
  1. 主机名配置[/etc/hostname]
  2. 主机名称映射配置[/etc/hosts]
ip hostname
  1. 重启,使配置生效
2.8 远程访问工具
  1. Xshell+Xftp
  2. Mobaxterm
2.9 模板机环境配置
  1. rpel-release: readhat系列的软件仓库
yum install -y epel-relaease
  1. net-tools: 网络工具包[ifconfig]
yum install -y net-tools
  1. vim:文本编辑器
yum install -y vim
  1. 关闭防火墙
systemctl stop firewalld
systemctl disable firewalld.service
  1. 添加用户并服务对应权限
useradd xxx
passwd xxx

vim /etc/sudoers

# 在 %wheel 行下添加
xxx ALL=(ALL) NOPASSWD:ALL
  1. 卸载自带的JDK
rpm -qa |grep -i java | xargs -n1 rpm -e --nodeps
  1. 重启
2.10 模板机克隆

只需修改对应主机的名称和IP即可

Hadoop 集群部署 2.11 Hadoop 安装
  1. 安装jdk
# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量

# 这里不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取
export JAVA_HOME=/xxx/xxx
export PATH=$PATH:$JAVA_HOME/bin

# 检查Ok
java -version
  1. 安装hadoop
# 1.上传安装包
# 2.解压
tar -zxvf xxx -C /xxx/xxx
# 3.配置环境变量

# 这里同样不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取
export HADOOP_HOME=/xxx/xxx
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# 4.检查OK
hadoop version
2.12 Hadoop 集群文件拷贝

可以在配置SSH免密登录之后在拷贝,这样就不用输入各主机的密码

  1. 集群文件拷贝
# 方式一 :文件推送
scp -r /xxx/xxx  user@hostname:/xxx/xxx
# 方式二 :文件拉取
scp -r user@hostname:/xxx/xxx  /xxx/xxx
# 方式三 :文件传输
scp -r user@hostname:/xxx/xxx  user@hostname:/xxx/xxx
  1. 集群配置同步
# 同 scp 使用方式类似,只同步差异性文件
rsync -av /xxx/xxx  user@hostname:/xxx/xxx

这里提供了一个集群文件拷贝的脚本

xsync.sh

# 集群之间分发文件

if [[ $# -lt 1 ]]; then
	echo Arguenment Error!
	exit
fi

for host in hadoop102 hadoop103 hadoop104
do
	for file in $@; do
		if [[ -e $file ]]; then
			pdir=$(cd -P $(dirname $file);pwd)
			fname=$(basename $file)
			ssh $host "mkdir -p $pdir"
			rsync -av $pdir/$fname $host:$pdir
		else
			echo $file not exits!
		fi
	done
done

注意:有可能Linux主机上没有rsync工具,直接通过yum安装即可

yum install -y rsync
2.13 Hadoop SSH免密登录配置
  1. 进入家目录,生成密钥对
ssh-keygen -t rsa
  1. 拷贝公钥
ssh-copy-id hostname  # 自身也要配置
  1. 集群每台主机重复此操作
2.14 Hadoop 集群配置
  1. Hadoop集群规划
hadoop102hadoop103hadoop104
HDFSNN、DNDN2NN
YARNNMRM、NMNM
  1. 四大核心配置文件配置
  • core-site.xml




  fs.defaultFS
  hdfs://hadoop102:8020


  hadoop.tmp.dir
  /opt/module/hadoop-2.7.1/data


  • hdfs-site.xml




  dfs.namenode.http-address
  hadoop102:9870


  dfs.namenode.secondary.http-address
  hadoop104:9868


  • yarn-site.xml



  
    yarn.nodemanager.aux-services
    mapreduce_shuffle
  
  
    yarn.resourcemanager.hostname
    hadoop103
  

  • mapred-site.xml




  mapreduce.framework.name
  yarn


  1. 使用2.12的xsync.sh脚本直接同步即可
2.15 Hadoop 集群启动测试
  1. 配置workers/slaves

    # hadoop 2.x 的叫做salves ,hadoop3.x 的叫做 workers
    
    hadoop102
    hadoop103
    hadoop104
    
    # 配完别忘了同步
    
  2. 初次启动需初始化

hdfs namenode -format
  1. 启动
# 在namenode节点启动hdfs
start-dfs.sh
# 在resourcemanager节点启动yarn
start-yarn.sh
  1. webUI查看
# hdfs
192.168.10.102:9870
# yarn
192.168.10.103:8088

文件实际存储地址:默认保存三个副本

${HADOOP_HOME}/data/dfs/data/current/BP-1778870268-192.168.10.102-1638496036398/current/finalized/subdir0/subdir0

大文件还原:

hadoop 文件分块存储,hadoop2.x一个块最大128MB,只需要把块文件压缩在一起,再解压即可!

2.16 Hadoop集群崩溃处理

先要清除历史数据,再格式化【Namenode 和Datamode都有VERSION】

  1. 把hadoop相关进程关掉
  2. 删除三台hadoop目录下的 data/ 和logs/
  3. 格式化namenode
  4. 启动
2.17 Hadoop 历史服务器配置
  1. 修改mapred-site.xml

  mapreduce.jobhistory.address
  hadoop102:10020
  MapReduce JobHistory Server IPC host:port


  mapreduce.jobhistory.webapp.address
  hadoop102:19888
  MapReduce JobHistory Server Web UI host:port

  1. 同步配置文件

  2. 重启yarn,再启动历史服务器

# hadoop3.x
mapred --daemon start historyserver
# hadoop2.x
mr-jobhistory-daemon.sh start historyserver
  1. 查看进程是否启动
jps
  1. 查看JobHistory
# 点击yarn界面对应application的history链接即可跳转日志服务

注意:jobhistory无法跳转时,观察地址栏url可以看出,需要配置windows的ip和主机映射:

文件路径 C:WindowsSystem32driversetchosts

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

2.18 Hadoop 日志聚集功能配置
  1. 修改yarn-site.xml
  
    yarn.log-aggregation-enable
    true
  
  
    yarn.log-aggregation.retain-seconds
    604800
  
  1. 同步配置

  2. 关闭yarn和jobhistory进程

  3. 启动yarn和jobhistory进程

2.19 Hadoop 编写常用脚本
  1. Hadoop集群启动停止脚本

hadoop.sh

# hadoop 集群启动停止脚本

if [[ $# -lt 1 ]]; then
	echo "Argument Error"
	exit
fi

case $1 in
	"start" )
				echo "------start hadoop cluster------"
				echo "------start hdfs------"
				ssh hadoop102 "start-dfs.sh"
				echo "start yarn"
				ssh hadoop103 "start-yarn.sh"
				echo "------start historyserver------"
				ssh hadoop103 "mr-jobhistory-daemon.sh start historyserver"
	;;
	"stop" )
				echo "------stop hadoop cluster------"
				echo "------stop historyserver------"
				ssh hadoop103 "mr-jobhistory-daemon.sh stop historyserver"
				echo "------stop yarn------"
				ssh hadoop103 "stop-yarn.sh"
				echo "------stop hdfs------"
				ssh hadoop102 "stop-dfs.sh"
	;;
	* )
				echo "Argument Error"
	;;
esac
  1. Haoop集群jps进程查看脚本

jps.sh

# hadoop 集群 jps 查看进程
for host in hadoop102 hadoop103 hadoop104; do
	echo "------$host-------"
	ssh $host jps
done
2.20 Hadoop 常用端口号
hadoop3.xhadoop2.x
HDFS 内部端口8020/9000/98208020/9000
HDFS web端口987050070
Yarn web端口80888088
Jobhistory web端口1988819888
2.21 Hadoop 常用配置文件
hadoop3.xhadoop2.x
core-site.xmlcore-site.xml
hdfs-site.xmlhdfs-site.xml
yarn-site.xmlyarn-site.xml
mapred-site.xmlmapred-site.xml
workersslaves
2.22 Hadoop 集群时间同步配置

俗称“对表”,在服务器不能连接外网时,需要配置时间同步。由于服务器以联网,此处可以不配置了!

  1. 开启主时钟节点ntpd服务,并设置开机自启
systemctl status ntpd
systemctl start ntpd
systemctl is-enabled ntpd
  1. 修改ntp.conf 配置文件
# 设置集群主时钟节点可被其他节点访问
restict 192.168.10.0 mask 255.255.255.0 nomodify notrap
# 设置采用本机时钟,不连接互联网时钟,把joining the pool下方的行注释掉

# 设置当主时钟节点断网时,依然可以提供时间同步任务
server 127.127.1.0
fudge 127.127.1.0 stratum 10
  1. 关闭其余节点的ntpd服务和自启动
  2. 在其余节点设置定时任务定时同步集群时间
crontab -e

*/1 * * * * /usr/sbin/ntpdate hadoop102
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/632904.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号