一、hadoop本地部署
(1)需要包含内容的文件(统计单词个数的文件)。
在/opt目录下创建test目录。
在/opt/test目录下分别创建input目录和output目录。
在/opt/test 目录下创建包含内容的文件。
(2)在hadoop中执行。
在/opt/module/hadoop-3.1.3/share/hadoop/mapreduce目录中执行文件。
命令: hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /opt/test/input/ /opt/test/output/count.txt
(3)查看执行结果。
切换到存放执行后文件/opt/test/output/count.txt目录中查看执行后的文件
二、hadoop的伪分布式部署
HDFS是进行存储的,YARN是进行调度的
1.hadoop目录下部署环境配置
配置:hadoop-env.sh配置jdk环境变量JAVA_HOME
2.配置core-site.xml文件
Vi core-site.xml
指定HDFS中namenode的地址。将命令放到configuration标签中
fs.defaultFS hdfs://hadoop100:9820 hadoop.tmp.dir /opt/module/hadoop-3.1.3/data/tmp
3.配置hdfs-site.xml
命令:vi hdfs-site.xml
在configuration中指定HDFS的数量
dfs.replication 1
(二)集群启动
1.格式化namenode
命令:hdfs namenode -format
2.启动namenode
命令:hdfs --daemon start namenode
3.查看进程
命令:jps
4. 启动一个datanode
hdfs --daemon start datanode
1. Jsp查看java进程
命令:jsp
2. 在HDFS中创建文件夹/user/input
命令:hdfs dfs -mkdir -p /user/input
3. 将文件上传到HDFS
命令:hdfs dfs –put 要上传的文件名 上传的地址
4. 查看hdfs的文件目录
命令:Hdfs dfs –ls 文件路径
注意,这里面的根目录不是linux的根目录
5. 查看hdfs中文件内容
命令:hdfs dfs –cat 文件名
6. 执行文件
命令:hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount 执行的文件位置 输出的文件位置
7. 查看执行后的结果
命令:hdfs dfs -cat 输出文件路径/*
8. 停止进程 hdfs –daemon stop namenode



