栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

调用MapReduce对文件中各个单词出现的次数进行统计

调用MapReduce对文件中各个单词出现的次数进行统计

 本次运行,我们需要实现的是调用 MapReduce 对文件中各个单词出现的
次数进行统计。要求在 Linux 系统中实现上述操作。首先要安装 Ubuntu 系统,
然后要配置 Java 环境,安装 JDK。Ubuntu 提供了一个健壮,功能丰富的计算环
境。
一、环境介绍
在 VitrtualBox 上安装 Ubuntu。在 Ubuntu 中安装 Hadoop,Eclipse。安装 JAVA
环境,下载文件 jdk-8u162-linux-x64.tar.gz。配置 Hadoop 伪分布式。在 Ubuntu
软件中心中下载并安装 Eclipse。安装好后,把待分析的文件上传到 HDFS,然
后在 Eclipse 中创建 MapReduce 项目,创建 Java 工程,为项目添加需要用到
的 JAR 包。
二、数据来源及数据上传
准备一个待分析的 10000 字英文单词文件,命名为 ljh.txt。使用 Firezilla
将 ljh.txt 文件传到 hadoop 中

 三,浏览 Gutenberg网站下载一遍英语文献《孩子与梦想》 

 

上传至/usr/local/hadoop目录下便于后续操作

 

四、数据上传结果查看

将数据上传至hdfs中,需要确保hadoop是开启状态

 

五、数据处理过程的描述

首先安装eclipse

 

安装完成后需要配置Hadoop-Eclipse-Plugin,将插件导入后,运行eclipse -clean打开eclipse

在preference中填入hadoop的安装地址

切换MapReduce视图

 

在MapReduce locations连接hadoop(配置参数需要和hadoop的配置文件core-site.xml一致)

配置完毕后可以在左边看到实验文件

 

创建MapReduce项目

在运行程序前需要将我们的配置文件复制到我们项目下

运行项目

 

六、处理结果的下载及命令行展示

运行完毕后会在output生成文件part-r-00000

将运行结果下载本地

 

七、经验总结

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/687842.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号