环境准备:
创建三台虚拟机 分别为hadoop102,hadoop103,hadoop104
配置三台虚拟机ip地址,免密,防火墙,hosts,网卡配置
安装jdk 配置环境变量
安装hadoop 配置环境变量
搭建hadoop需要用到的配置文件:
hadoop-env.sh
yarn-env.sh
mapred-env.sh
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
slaves
各文件配置的内容
hadoop-env.sh yarn-env.sh mapred-env.sh
配置JAVA_HOME为自己安装的jdk路径
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
slaves :
hadoop102
hadoop103
hadoop104
格式化NameNode:
hdfs namenode -format
注:
第一次启动时格式化一下,不要总格式化。
如果总格式化会导致三台机器的clusterID发生变化,不一致,这时候需要先停止服务,然后再删除三台机器上的data目录和logs目录重新在格式化一下。
三台集群id就一致了
单节点启动:
启动hdfs的进程:
hadoop-daemon.sh start/stop namenode
hadoop-daemon.sh start/stop datanode
hadoop-daemon.sh start/stop secondarynamenode
启动yarn的进程:
yarn-daemon.sh start/stop nodemanager
yarn-daemon.sh start/stop resourcemanager
群启集群:
启动hdfs的进程:
start-dfs.sh
启动yarn的进程:
start-yarn.sh
命令行查看:web页面查看:
地址栏输入: hadoop102:50070
这种出现三个datanode就是成功的
如果发现掉了一个datanode:先检查一下配置文件core-site.xml 和 hdfs-site.xml这俩文件;
如果没有问题就有可能是多次格式化NameNode,但是格式之前并没有停止之前的进程并删除相关数据。导致三台机器的clusterID发生变化;就需要停止服务,重新格式化一下
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar 命令选项 输入文件路径 输出文件路径



