hadoop学习笔记（四、伪分布式部署）

一、hadoop本地部署

（1）需要包含内容的文件（统计单词个数的文件）。

在/opt/test目录下分别创建input目录和output目录。

在/opt/test 目录下创建包含内容的文件。

（2）在hadoop中执行。

在/opt/module/hadoop-3.1.3/share/hadoop/mapreduce目录中执行文件。

命令：

hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /opt/test/input/ /opt/test/output/count.txt

（3）查看执行结果。

切换到存放执行后文件/opt/test/output/count.txt目录中查看执行后的文件

二、hadoop的伪分布式部署

HDFS是进行存储的，YARN是进行调度的

1.hadoop目录下部署环境配置

配置：hadoop-env.sh配置jdk环境变量JAVA_HOME

2.配置core-site.xml文件

Vi core-site.xml

指定HDFS中namenode的地址。将命令放到configuration标签中







fs.defaultFS

hdfs://hadoop100:9820








        hadoop.tmp.dir

        /opt/module/hadoop-3.1.3/data/tmp

3.配置hdfs-site.xml

命令：vi hdfs-site.xml

在configuration中指定HDFS的数量







        dfs.replication

        1

（二）集群启动

1.格式化namenode

命令：hdfs namenode -format

2.启动namenode

命令：hdfs  --daemon  start  namenode

3.查看进程

命令：jps

4. 启动一个datanode

hdfs  --daemon start datanode

1. Jsp查看java进程

命令：jsp

2. 在HDFS中创建文件夹/user/input

命令：hdfs dfs -mkdir -p /user/input

3. 将文件上传到HDFS

命令：hdfs  dfs  –put 要上传的文件名 上传的地址

4. 查看hdfs的文件目录

命令：Hdfs dfs –ls 文件路径

注意，这里面的根目录不是linux的根目录

5. 查看hdfs中文件内容

命令：hdfs dfs –cat 文件名

6. 执行文件

命令：hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount 执行的文件位置 输出的文件位置

7. 查看执行后的结果

命令：hdfs dfs -cat 输出文件路径/*

8.  停止进程 hdfs –daemon stop namenode

Hdfs维护了一个抽象的目录