栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 数据挖掘与分析

Hadoop杂烩

Hadoop杂烩

Hadoop杂烩
  • 启动进程
  • 快捷键
  • 虚拟机准备
    • 1. 安装VM Tool
    • 2. 换源
    • 安装相应软件
  • 安装Jdk和Hadoop
  • wordcount案例
  • 伪分布式案例
    • HDFS
      • 1. 配置文件
      • 2. 启动集群
      • 3. 测试
    • YARN
      • 1. 配置
      • 2. 启动
    • 配置历史服务器
      • 1. 配置
      • 2. 启动历史服务器
    • 日志聚合
  • HDFS
  • 常见问题

边学边写,持续更新中
配合目录用


在vm上安装玩ubuntu之后,换一个国内源,博主装的是清华源
然后安装 vim ,ssh
这些有空再写教程

启动进程
启动CODE
Namenodesbin/hadoop-daemon.sh start namenode
Damenodesbin/hadoop-daemon.sh start datanode
ResourceManagersbin/yarn-daemon.sh start resourcemanager
NodeManagersbin/yarn-daemon.sh start nodemanager
历史服务器sbin/mr-jobhistory-daemon.sh start historyserver
启动CODE
启动CODE


快捷键
NAMETIPSTIPS
清屏Ctrl + lclear
bin/hdfs dfs -rm -r
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount 

hdfs删除命令
bin/hdfs dfs -rm -r

hdfs运行命令
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount


虚拟机准备

博主用的是VM软件操作,以下步骤根据自己要求适当性安装

1. 安装VM Tool

为了方便虚拟机和电脑之间的复制粘贴

  1. 在菜单栏,点 虚拟机 ,点 安装Vmware Tool
  2. 打开桌面上的VM Tool文件,把后缀为 gz的文件复制,打开桌面左边栏的 文件,新建一个文件夹,把刚才拷贝的文件粘贴
  3. 打开终端,找到文件,把这个文件解压了,taz -zxvf VMwareTools-10.3.2-9925305.tar.gz
  4. 进入到 vmware-tools-distrib 中,执行 ./vmware-install.pl,期间一直敲回车
  5. 设置共享文件夹,解决拖动文件卡死问题
 1. 将Ubuntu关机(power off),否则不能添加共享文件夹
 2. 在VMware虚拟机窗口,选择虚拟机->设置->选项->共享文件夹
 3. 点右边的“添加”,点“下一步”->选择事先创建好的共享目录的路径,然后点“下一步”->选中 启动共享->完成
 4. 在窗口的右边,选择“总是启用”
 5. 点 确定 退出
2. 换源

这里是18.04版本的源

  1. 进入管理员模式,sudo -i
  2. cd ..退到根目录,vi /etc/apt/sources.list
按dd(长按)
按i
鼠标右键-粘贴下面的源
按Esc
:wq 退出保存
# 清华源 首推,还要阿里源 中科大源 可自行百度
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-updates main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-backports main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-security main restricted universe multiverse
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-proposed main restricted universe multiverse
deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic main restricted universe multiverse
deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-updates main restricted universe multiverse
deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-backports main restricted universe multiverse
deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-security main restricted universe multiverse
deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-proposed main restricted universe multiverse
  1. 执行下面代码更新
    apt-get update
    apt-get upgrade
安装相应软件
  1. 安装vim apt install vim
  2. 安装ssh apt-get install ssh
  3. 安装rsync apt-get install rsync


安装Jdk和Hadoop

1.解压 tar -zxvf ******
2.配置环境变量 vim /etc/profile
2.1 输入相应的环境变量

## JAVA_HOME
export JAVA_HOME=/opt/jdk1.8.0_144
## 路径不唯一  可以进入jkd  然后用pwd看路径
export PATH=$PATH:$JAVA_HOME/bin
## HADOOP
export HADOOP_HOME=/opt/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

3.更新 source /etc/profile


wordcount案例
  1. 在hadoop路径下创建一个wcinput文件夹 mkdir wcinput,然后创建 touch wc.input
  2. 编辑wc.input vim wc.input 在里面随便输点什么,保存退出
  3. 在/opt/Hadoop-2.7.2目录下执行 wordcount
    hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
  4. 看结果 cat wcoutput/part-r-00000


伪分布式案例 HDFS 1. 配置文件
  1. 配置core-site.xml,进入 /opt/hadoop-2.7.2/etc/hadoop 目录下,vim core-site.xml
  2. 在两个 中间写入一下代码,保存退出
 
	fs.defaultFS
	hdfs://localhost:9000 



 
	hadoop.tmp.dir
	/opt/hadoop-2.7.2/data/tmp 

  1. 配置hadoop-env.sh,vim hadoop-env.sh,写入JAVA_HOME,用 echo $JAVA_HOME 看java路径。如图
  2. 配置hdfs-site.xml,vim hdfs-site.xml ,写入以下代码
 
	dfs.replication
	1 

2. 启动集群
  1. 格式化NameNode
    bin/hdfs namenode -format
  2. 启动NameNode
    sbin/hadoop-daemon.sh start namenode
  3. 启动DataNode
    sbin/hadoop-daemon.sh start datanode
  4. 查看启动情况 jps 或者是 在虚拟机里的网页打开 localhost:50070
3. 测试
  1. 创建文件 ,结果如图
    bin/hdfs dfs -mkdir -p /user/root/input
  2. 上传文件,这里是之前的那个wordcount案例的文件。刷新网页即看到文件
    bin/hdfs dfs -put wcinput/wc.input /user/root/input
  3. 执行hdfs上的文件,output不能事先创建。结果如图
    bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/output
  4. 在本地看hdfs的结果
    bin/hdfs dfs -cat /user/root/output/p*


YARN 1. 配置
  1. 配置yarn-env.sh ,删除export之前的 # ,更改JAVA_HOME vim yarn-env.sh ,如图
  2. 配置yarn-site.xml,vim yarn-site.xml ,地址可以写自己的主机名或者是localhost
 
	yarn.nodemanager.aux-services
	mapreduce_shuffle 



 
	yarn.resourcemanager.hostname
	localhost 

  1. 配置mapred-env.sh,更改JAVA_HOME,vim mapred-env.sh ,如图
  2. 配置mapred-site.xml,先将mapred-site.xml.template重命名为mapred-site.xml
    cp mapred-site.xml.template mapred-site.xml
    然后再 vim mapred-site.xml ,加入以下代码
 
	mapreduce.framework.name
	yarn  

2. 启动
  1. 启动集群,启动之前保证namenode和datanode已启动,用 jps 看。
    要在/opt//hadoop-2.7.2目录下启动
    启动ResourceManager
    sbin/yarn-daemon.sh start resourcemanager
    启动NodeManager
    sbin/yarn-daemon.sh start nodemanager
    用 localhost:8088 网址看是否启动成功,如图
  2. 测试 运行wordcount案例
    删除output
    hdfs dfs -rm -r /user/root/output
    运行wordcount
    bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/output
    在Yarn上看进度


配置历史服务器 1. 配置

配置mapred-site.xml vim mapred-site.xml


        mapreduce.jobhistory.address
        虚拟机主机名:10020




        mapreduce.jobhistory.webapp.address
        虚拟机IP:19888

2. 启动历史服务器

启动后用 jps 看,或者网址http://上面的IP:19888/jobhistory
sbin/mr-jobhistory-daemon.sh start historyserver
测试
用wordcount案例测试,注意先删掉outout

日志聚合
  1. 配置配置yarn-site.xml vim yarn-site.xml 加入以下代码
 
	yarn.log-aggregation-enable
	true 



 
	yarn.log-aggregation.retain-seconds
	604800 

  1. 关闭NodeManager、ResourceManager、HistoryManager
sbin/mr-jobhistory-daemon.sh stop historyserver
sbin/yarn-daemon.sh stop nodemanager
sbin/yarn-daemon.sh stop resourcemanager
  1. 重启NodeManager、ResourceManager、HistoryManager
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver
  1. 再次运行wordcount案例去看聚合后的日志
HDFS

CODE


常见问题
  1. namenode启动后消失;namenode启动不了
     方法一:查看core-site-xml 中的主机名,伪分布是localhost
     方法二:格式化不干净,先停止namenode和datanode进程,然后删掉 opt 目录下的data文件和logs文件,再格式化namenode,再启动
在这里插入代码片

端口
8088 mapreduce
50070 hdfs

ifconfig 看ip
CODE

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/278685.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号