hadoop经典案例————单词统计
目录
hadoop经典案例————单词统计
1. 打开HDFS的UI界面,查看是否有数据文件,默认是没有数据文件。
2. 准备文本文件,在Linux系统上编辑一个文本文件,然后上传到HDFS上。
2.1 在/export目录下新建data目录,存放数据文件
2.2 在HDFS上创建目录
2.3 将word.txt文件上传到input文件夹下
3. 运行hadoop-mapreduce-examples-2.7.4.jar包,实现词频统计。
3.1 找到jar包:
3.3 运行jar包
4. HDFS集群UI界面出现了结果文件。
1. 打开HDFS的UI界面,查看是否有数据文件,默认是没有数据文件。
游览器输入:hadoop01:50070 ,找到Utilities-->Browse the file system
如果出现错误,先去看看自己的HDFS服务有没有启动:在hadoop01中,输入jps查看,启动方法看前面几篇文章
HDFS分布式文件系统数据查看页面:没有任何数据文件:
2. 准备文本文件,在Linux系统上编辑一个文本文件,然后上传到HDFS上。
2.1 在/export目录下新建data目录,存放数据文件
输入:mkdir -p /export/data
进入这个目录,新建一个文件
输入: vi word.txt
随意输入一些单词
esc+w+q保存退出后,查看文件可以看到word文件存在
2.2 在HDFS上创建目录
输入:hadoop fs -mkdir -p /wordcount/input
在根目录下创建wordcount文件夹,在wordcount文件夹下,创建input文件夹用以保存源文件
验证目录创建
刷新一下,分布式文件系统数据查看页面,即可看到新建的文件
另,删除HDFS文件命令为:hadoop fs -rm -r -skipTrash (...)
(...)表示完整文件名,如:/wordcount/input
2.3 将word.txt文件上传到input文件夹下
输入:hadoop fs -put /export/data/word.txt /wordcount/input
验证文件上传
刷新一下,分布式文件系统数据查看页面,点红框框内的东西,点到出现word文件
3. 运行hadoop-mapreduce-examples-2.7.4.jar包,实现词频统计。
3.1 找到jar包:
输入: cd /export/servers/hadoop-2.7.4/
3.2 进入share/hadoop/mapreduce目录
3.3 运行jar包
输入:hadoop jar hadoop-mapreduce-examples-2.7.4.jar wordcount /wordcount/input /wordcount/output
其中,1意思是要执行一个jar包,2意思是jar包名(跟上面那张图片某包名一致),3意思是使用这个jar包中单词统计功能,4是源文件路径,5是输出文件路径
如果卡在这个界面:转到:(1条消息) 日常问题——hadoop 任务运行到running job就卡住了 INFO mapreduce.Job: Running job: job_1595222530661_0003_栗筝i的博客-CSDN博客
运行成功后,终端(部分)界面如下
4. HDFS集群UI界面出现了结果文件。
下载output文件到本机并查看
可以看到单词和单词出现次数被打印出来了



