栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

调用MapReduce对文件中各个单词出现的次数进行统计。

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

调用MapReduce对文件中各个单词出现的次数进行统计。

一、环境介绍

Ubuntu16.04操作系统

Hadoop3.1.3

Eclipse 编译器

二、数据来源及数据上传

准备一个待分析的文件(10000字英文单词文件,可从网上找英文文章),命名为ysh.txt。将文件放到/home/Hadoop文件下:

 

三、数据上传结果查看

1.将实验的文本文件上传到HDFS中,并查看文件上传情况(请确保Hadoop为开启状态)

 

四、数据处理过程的描述

1.安装并打开eclipse

2.配置 Hadoop-Eclipse-Plugin

3.为项目添加需要用到的JAR包

4.在 Eclipse 中操作 HDFS 中的文件

 5.在 Eclipse 中创建 MapReduce项目:首先,点击File菜单,选择New—Project,然后选择Map/Reduce Project,点击Next,最后,填写项目名称,此处用本实验WordCount作为项目名。填写完后点击Finish即可。

 6.编写 Java 应用程序并翻译

 7.把 Java 应用程序打包生成 JAR 包,部署到 Hadoop 平台上运行。把词频统计程序放在“/usr/local/hadoop/myapp”目录下

8.在 Eclipse 工作界面左侧的“Package Explorer”面板中,在工程名称“WordCount” 上点击鼠标右键,选择“Export”

 9.在该界面中,选择“Runnable JAR file”,然后,点击“Next>”按钮

 

五、处理结果的下载及命令行展示

1.使用 hadoop jar 命令运行程序

 

2.查看 output 文件夹是否有运行成功后生成的文件以及查看运行后生成的 output/part-r-00000 这个文件

 

 

3.将 output 文件夹下载至本地

 

4.查看 part-r-00000 文件

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/687068.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号