基于Windows下的Linux的Hadoop伪分布式集群的安装指南

在介绍完本地运行的Hadoop后，我们引入伪分布式的Hadoop运行模式，在这种模式下Hadoop仍然在一个节点上运行，在伪分布式运行模式中不仅仅再使用Linux的命令行，而是出现图形化的页面，仍然给出Hadoop的官档:https://hadoop.apache.org/docs/r2.7.2/

文章目录

查看集群启动情况
- 使用jps
- 使用ip
启动HDFS并运行MapReduce程序
- 配置集群
- 启动集群
启动Yarn并运行MapReduce
- 配置集群
- 启动集群
在Hadoop中查看节点日志

查看集群启动情况使用jps 使用ip

1.在ubuntu环境下查看本机ip:ifconfig

eth0: flags=4163  mtu 1500
        inet xxx.xx.x.xx  netmask 255.255.240.0  broadcast 172.24.15.255
        #上面第二行的inet这一段是自己的ip地址

2.在浏览器网址端输入自己的ip+万能端口：
http://自己的ip:50070/或者http://自己的ip:8088/

启动HDFS并运行MapReduce程序配置集群

1.配置etc/hadoop/core-site.xml文件

#进入root账户
su
#进入hadoop文件夹并重新source Hadoop
cd /home
source /etc/profile
cd /opt/hadoop-2.7.2/
#进入hadoop文件夹cd /etc/hadoop并查看需要修改的文件名
cd etc/hadoop
ls
#编辑etc/hadoop/core-site.xml文件
vim core-site.xml
#配置指定HDFS中NameNode的地址

    fs.defaultFS
    hdfs://localhost:9000

#指定Hadoop节点运行时文件产生的存储路径

     hadoop.tmp.dir
     /opt/hadoop-2.7.2/data/tmp

配置hadoop-env.sh文件，加入JAVA_HOME

#找到JAVA的路径,并复制
echo $JAVA_HOME
# 打开hadoop-env.sh文件
vim hadoop-env.sh
#替换export JAVA_HOME=中的路径
export JAVA_HOME=/opt/jdk1.8.0_144
#这是我的路径

3.配置etc/hadoop/hdfs-site.xml文件

#编辑etc/hadoop/hdfs-site.xml文件
vim hdfs-site.xml
#编辑内容：将默认的分布式节点由默认的3个变成1个

    dfs.replication
    1

启动集群

1.格式化NameNode
注：在第一次启动时格式化就可以，之后的启动不需要格式化

#回到/opt/hadoop-2.7.2文件夹
cd /opt/hadoop-2.7.2/
#初始化NameNode,没有报Error应该就是正常运行
bin/hdfs namenode -format

2.启动NameNode

#启动NameNode
sbin/hadoop-daemon.sh start namenode
#使用jps命令查看进程是否存在并查看java接口的进程号
jps

3.启动DateNode

#启动DataNode
sbin/hadoop-daemon.sh start datanode
#使用jps命令查看进程是否存在并查看java接口的进程号
jps

4.使用ip访问伪分布式集群

启动Yarn并运行MapReduce 配置集群

1.配置yarn-env.sh文件，更改$JAVA_HOME

#查找JAVA路径
echo $JAVA_HOME
#进入Hadoop文件夹
cd /etc/hadoop
#更改yarn-env.sh文件
vim yarn-env.sh
将#export JAVA_HOME=/opt/jdk1.8.0_144取消注释并将JAVA_HOME换成刚刚查到的路径

2.配置yarn-site.xml文件

#找到本机ip地址
ifconfig
#编辑yarn-site.xml文件
vim yarn-site.xml
#插入代码，注意下面的标签中的值是上面找到的本机ip地址


        yarn.nodemanager.aux-services
        mapreduce_shuffle




        yarn.resourcemanager.hostname
        xxx.xx.xx.x

3.配置mapred-env.sh文件，加入JAVA_HOME

#查看JAVA_HOME路径
echo $JAVA_HOME
#编辑mapred-env.sh文件
vim mapred-env.sh
#将#export JAVA_HOME=/opt/jdk1.8.0_144取消注释并将JAVA_HOME换为刚刚查看的路径

4.配置mapred-site.xml文件

#先将apred-site.xml.template改名为mapred-site.xml文件
cp mapred-site.xml.template mapred-site.xml
#编辑mapred-site.xml文件
vim mapred-site.xml
#增加代码


        mapreduce.framework.name
        yarn

启动集群

1.启动前保证NameNode和DataNode已经启动

#进入/opt/hadoop-2.7.2文件夹
cd /opt/hadoop-2.7.2/
#查看已经启动的节点
jps
#若NameNode和DataNode没有启动则启动
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
#若有进程占用节点：datanode running as process 376. Stop it first
#输入杀死进程命令
sudo kill PID号

2.启动ResourceManager

sbin/yarn-daemon.sh start resourcemanager
#查看是否启动
jps
#出现xxx ResourceManager

3.启动NodeManager

sbin/yarn-daemon.sh start nodemanager
#查看是否启动
#出现xxxx NodeManager

4.通过UI访问：ip地址:8088

在Hadoop中查看节点日志

1.进入Hadoop文件夹

cd /home
cd /opt/hadoop-2.7.2/

2.找到并进入logs/文件夹，节点日志存放于该文件夹下

ll 
#找到logs
cd logs
#进入logs文件夹

3.日志中既含有后缀为.out也含有后缀为.log的文件，只需要查看后缀为.log的文件即为日志文件,日志中的标记一般为debug,info,warning,error,fatal

cat hadoop-root-namenode-LAPTOP-85P8MS6D.log

基于Windows下的Linux的Hadoop伪分布式集群的安装指南

其他相关栏目本月热门文章