文章目录前情提醒:linux基本命令和简单的shell脚本,已Get!
- 2.hadoop 3.x/2.x
- Hadoop 简介
- 2.1 三大发行版本
- 2.2 优势
- 2.3 组成
- 2.4 HDFS 文件系统
- 2.5 YARN 资源管理工具
- 2.6 MapReduce 计算框架
- Hadoop 模板机搭建
- 2.7 模板机搭建
- 2.8 远程访问工具
- 2.9 模板机环境配置
- 2.10 模板机克隆
- Hadoop 集群部署
- 2.11 Hadoop 安装
- 2.12 Hadoop 集群文件拷贝
- 2.13 Hadoop SSH免密登录配置
- 2.14 Hadoop 集群配置
- 2.15 Hadoop 集群启动测试
- 2.16 Hadoop集群崩溃处理
- 2.17 Hadoop 历史服务器配置
- 2.18 Hadoop 日志聚集功能配置
- 2.19 Hadoop 编写常用脚本
- 2.20 Hadoop 常用端口号
- 2.21 Hadoop 常用配置文件
- 2.22 Hadoop 集群时间同步配置
Hadoop 简介 2.1 三大发行版本Hadoop 分布式系统基础架构,主要解决数据的存储和计算,现Hadoop广义上 指的是Hadoop生态圈
- Apache 2006
- Cloudera CDH 2008
- Hortonworks HDP 2011
2.2 优势Hortonworks 和Cloudera 联合,2018推出 CDP
- 高可靠性:底层维护多个副本
- 高扩展性:动态扩展节点,动态删除节点
- 高效性:并行计算
- 高容错性:失败任务自动重新分配
- Common : 辅助工具
- HDFS: 数据存储
- YARN: 资源调度
- MapReduce: 计算
-
NameNode[NN] 名称节点
-
DataNode[DN] 数据节点
-
Secondary NameNode[2NN] 第二名称节点
-
ResourceManager[RM] 集群资源管理器
-
NodeManager[NM] 节点资源管理器
-
ApplicationMaster[AM] 应用程序
-
Container 运行程序的资源容器
-
Map 映射,一系列转换操作
-
Reduce 汇总
- 硬件
- 软件
- IP配置
- VMware 网络配置
- Windows网络配置
- Linux主机网络配置[/etc/sysconfig/network-scripts/ifcfg-xxx]
BOOTPROTO='static' IPADDR=xxx.xxx.xx.xxx GATEWAY=xxx.xxx.xx.x DNS1=xxx.xxx.xx.x
- 主机名配置[/etc/hostname]
- 主机名称映射配置[/etc/hosts]
ip hostname
- 重启,使配置生效
- Xshell+Xftp
- Mobaxterm
- rpel-release: readhat系列的软件仓库
yum install -y epel-relaease
- net-tools: 网络工具包[ifconfig]
yum install -y net-tools
- vim:文本编辑器
yum install -y vim
- 关闭防火墙
systemctl stop firewalld systemctl disable firewalld.service
- 添加用户并服务对应权限
useradd xxx passwd xxx vim /etc/sudoers # 在 %wheel 行下添加 xxx ALL=(ALL) NOPASSWD:ALL
- 卸载自带的JDK
rpm -qa |grep -i java | xargs -n1 rpm -e --nodeps
- 重启
Hadoop 集群部署 2.11 Hadoop 安装只需修改对应主机的名称和IP即可
- 安装jdk
# 1.上传安装包 # 2.解压 tar -zxvf xxx -C /xxx/xxx # 3.配置环境变量 # 这里不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取 export JAVA_HOME=/xxx/xxx export PATH=$PATH:$JAVA_HOME/bin # 检查Ok java -version
- 安装hadoop
# 1.上传安装包 # 2.解压 tar -zxvf xxx -C /xxx/xxx # 3.配置环境变量 # 这里同样不在 /etc/profile直接配置环境变量,可以在/etc/profile.d/ 下新建文件,会直接读取 export HADOOP_HOME=/xxx/xxx export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin # 4.检查OK hadoop version2.12 Hadoop 集群文件拷贝
可以在配置SSH免密登录之后在拷贝,这样就不用输入各主机的密码
- 集群文件拷贝
# 方式一 :文件推送 scp -r /xxx/xxx user@hostname:/xxx/xxx # 方式二 :文件拉取 scp -r user@hostname:/xxx/xxx /xxx/xxx # 方式三 :文件传输 scp -r user@hostname:/xxx/xxx user@hostname:/xxx/xxx
- 集群配置同步
# 同 scp 使用方式类似,只同步差异性文件 rsync -av /xxx/xxx user@hostname:/xxx/xxx
这里提供了一个集群文件拷贝的脚本
xsync.sh
# 集群之间分发文件 if [[ $# -lt 1 ]]; then echo Arguenment Error! exit fi for host in hadoop102 hadoop103 hadoop104 do for file in $@; do if [[ -e $file ]]; then pdir=$(cd -P $(dirname $file);pwd) fname=$(basename $file) ssh $host "mkdir -p $pdir" rsync -av $pdir/$fname $host:$pdir else echo $file not exits! fi done done
注意:有可能Linux主机上没有rsync工具,直接通过yum安装即可
yum install -y rsync2.13 Hadoop SSH免密登录配置
- 进入家目录,生成密钥对
ssh-keygen -t rsa
- 拷贝公钥
ssh-copy-id hostname # 自身也要配置
- 集群每台主机重复此操作
- Hadoop集群规划
| hadoop102 | hadoop103 | hadoop104 | |
|---|---|---|---|
| HDFS | NN、DN | DN | 2NN |
| YARN | NM | RM、NM | NM |
- 四大核心配置文件配置
- core-site.xml
fs.defaultFS hdfs://hadoop102:8020 hadoop.tmp.dir /opt/module/hadoop-2.7.1/data
- hdfs-site.xml
dfs.namenode.http-address hadoop102:9870 dfs.namenode.secondary.http-address hadoop104:9868
- yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname hadoop103
- mapred-site.xml
mapreduce.framework.name yarn
- 使用2.12的xsync.sh脚本直接同步即可
-
配置workers/slaves
# hadoop 2.x 的叫做salves ,hadoop3.x 的叫做 workers hadoop102 hadoop103 hadoop104 # 配完别忘了同步
-
初次启动需初始化
hdfs namenode -format
- 启动
# 在namenode节点启动hdfs start-dfs.sh # 在resourcemanager节点启动yarn start-yarn.sh
- webUI查看
# hdfs 192.168.10.102:9870 # yarn 192.168.10.103:8088
文件实际存储地址:默认保存三个副本
${HADOOP_HOME}/data/dfs/data/current/BP-1778870268-192.168.10.102-1638496036398/current/finalized/subdir0/subdir0
2.16 Hadoop集群崩溃处理大文件还原:
hadoop 文件分块存储,hadoop2.x一个块最大128MB,只需要把块文件压缩在一起,再解压即可!
先要清除历史数据,再格式化【Namenode 和Datamode都有VERSION】
- 把hadoop相关进程关掉
- 删除三台hadoop目录下的 data/ 和logs/
- 格式化namenode
- 启动
- 修改mapred-site.xml
mapreduce.jobhistory.address hadoop102:10020 MapReduce JobHistory Server IPC host:port mapreduce.jobhistory.webapp.address hadoop102:19888 MapReduce JobHistory Server Web UI host:port
-
同步配置文件
-
重启yarn,再启动历史服务器
# hadoop3.x mapred --daemon start historyserver # hadoop2.x mr-jobhistory-daemon.sh start historyserver
- 查看进程是否启动
jps
- 查看JobHistory
# 点击yarn界面对应application的history链接即可跳转日志服务
2.18 Hadoop 日志聚集功能配置注意:jobhistory无法跳转时,观察地址栏url可以看出,需要配置windows的ip和主机映射:
文件路径 C:WindowsSystem32driversetchosts
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
- 修改yarn-site.xml
yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 604800
-
同步配置
-
关闭yarn和jobhistory进程
-
启动yarn和jobhistory进程
- Hadoop集群启动停止脚本
hadoop.sh
# hadoop 集群启动停止脚本 if [[ $# -lt 1 ]]; then echo "Argument Error" exit fi case $1 in "start" ) echo "------start hadoop cluster------" echo "------start hdfs------" ssh hadoop102 "start-dfs.sh" echo "start yarn" ssh hadoop103 "start-yarn.sh" echo "------start historyserver------" ssh hadoop103 "mr-jobhistory-daemon.sh start historyserver" ;; "stop" ) echo "------stop hadoop cluster------" echo "------stop historyserver------" ssh hadoop103 "mr-jobhistory-daemon.sh stop historyserver" echo "------stop yarn------" ssh hadoop103 "stop-yarn.sh" echo "------stop hdfs------" ssh hadoop102 "stop-dfs.sh" ;; * ) echo "Argument Error" ;; esac
- Haoop集群jps进程查看脚本
jps.sh
# hadoop 集群 jps 查看进程 for host in hadoop102 hadoop103 hadoop104; do echo "------$host-------" ssh $host jps done2.20 Hadoop 常用端口号
| hadoop3.x | hadoop2.x | |
|---|---|---|
| HDFS 内部端口 | 8020/9000/9820 | 8020/9000 |
| HDFS web端口 | 9870 | 50070 |
| Yarn web端口 | 8088 | 8088 |
| Jobhistory web端口 | 19888 | 19888 |
| hadoop3.x | hadoop2.x |
|---|---|
| core-site.xml | core-site.xml |
| hdfs-site.xml | hdfs-site.xml |
| yarn-site.xml | yarn-site.xml |
| mapred-site.xml | mapred-site.xml |
| workers | slaves |
俗称“对表”,在服务器不能连接外网时,需要配置时间同步。由于服务器以联网,此处可以不配置了!
- 开启主时钟节点ntpd服务,并设置开机自启
systemctl status ntpd systemctl start ntpd systemctl is-enabled ntpd
- 修改ntp.conf 配置文件
# 设置集群主时钟节点可被其他节点访问 restict 192.168.10.0 mask 255.255.255.0 nomodify notrap # 设置采用本机时钟,不连接互联网时钟,把joining the pool下方的行注释掉 # 设置当主时钟节点断网时,依然可以提供时间同步任务 server 127.127.1.0 fudge 127.127.1.0 stratum 10
- 关闭其余节点的ntpd服务和自启动
- 在其余节点设置定时任务定时同步集群时间
crontab -e */1 * * * * /usr/sbin/ntpdate hadoop102



