栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop(1)——Hadoop集群构建(12)——集群初体验

Hadoop(1)——Hadoop集群构建(12)——集群初体验

hadoop经典案例————单词统计

目录

hadoop经典案例————单词统计

1. 打开HDFS的UI界面,查看是否有数据文件,默认是没有数据文件。

2. 准备文本文件,在Linux系统上编辑一个文本文件,然后上传到HDFS上。

2.1 在/export目录下新建data目录,存放数据文件

 2.2 在HDFS上创建目录

2.3 将word.txt文件上传到input文件夹下

3. 运行hadoop-mapreduce-examples-2.7.4.jar包,实现词频统计。

3.1 找到jar包:

 3.2 进入share/hadoop/mapreduce目录

 3.3 运行jar包

4. HDFS集群UI界面出现了结果文件。


1. 打开HDFS的UI界面,查看是否有数据文件,默认是没有数据文件。

游览器输入:hadoop01:50070 ,找到Utilities-->Browse the file system

如果出现错误,先去看看自己的HDFS服务有没有启动:在hadoop01中,输入jps查看,启动方法看前面几篇文章

 HDFS分布式文件系统数据查看页面:没有任何数据文件:

2. 准备文本文件,在Linux系统上编辑一个文本文件,然后上传到HDFS上。

2.1 在/export目录下新建data目录,存放数据文件

输入:mkdir -p /export/data

 

进入这个目录,新建一个文件

输入: vi word.txt

 随意输入一些单词

esc+w+q保存退出后,查看文件可以看到word文件存在

 2.2 在HDFS上创建目录

输入:hadoop fs -mkdir -p /wordcount/input

在根目录下创建wordcount文件夹,在wordcount文件夹下,创建input文件夹用以保存源文件

 验证目录创建

刷新一下,分布式文件系统数据查看页面,即可看到新建的文件

另,删除HDFS文件命令为:hadoop fs -rm -r -skipTrash (...)

(...)表示完整文件名,如:/wordcount/input

2.3 将word.txt文件上传到input文件夹下

输入:hadoop fs -put /export/data/word.txt /wordcount/input

 验证文件上传

刷新一下,分布式文件系统数据查看页面,点红框框内的东西,点到出现word文件

3. 运行hadoop-mapreduce-examples-2.7.4.jar包,实现词频统计。

3.1 找到jar包:

输入: cd /export/servers/hadoop-2.7.4/

 3.2 进入share/hadoop/mapreduce目录

 3.3 运行jar包

输入:hadoop jar hadoop-mapreduce-examples-2.7.4.jar wordcount /wordcount/input /wordcount/output

 其中,1意思是要执行一个jar包,2意思是jar包名(跟上面那张图片某包名一致),3意思是使用这个jar包中单词统计功能,4是源文件路径,5是输出文件路径

如果卡在这个界面:转到:(1条消息) 日常问题——hadoop 任务运行到running job就卡住了 INFO mapreduce.Job: Running job: job_1595222530661_0003_栗筝i的博客-CSDN博客

运行成功后,终端(部分)界面如下

4. HDFS集群UI界面出现了结果文件。

下载output文件到本机并查看

 

可以看到单词和单词出现次数被打印出来了

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/312676.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号