栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hadoop:MapReduce进行文件单词量的统计,将结果输出

Hadoop:MapReduce进行文件单词量的统计,将结果输出

实验四 MapReduce编程

1 实验目的
  1. 使用Hadoop的分布式存储HDFS系统存储数据;
  2. 使用MapReduce进行编程;
  3. 通过YARN资源管理框架运行MapReduce,验证结果。

2 实验内容

启动Hadoop集群,使用命令行方式往文件系统中添加数据,是MapReduce进行文件单词量的统计,将结果输出。

包括在Windows中实现和在Linux的Hadoop集群中实现。

3 实验知识点
  1. Hadoop;
  2. Java;
  3. HDFS;
  4. MapReduce编程;
  5. Windows下MapReduce运行分析;
  6. Linux下MapReduce运行分析。

4 实验时长

    8学时。

5 实验环境
  1. Linux;
  2. Hadoop;
  3. Java

6 实验过程

1.创建Java项目testmr

2.在项目下新建lib文件夹,将jar包拷贝进入

 3.在java bulid path中引入lib文件夹中所有的jar包

 4 编写 map、reduce、job代码

map类:

 reduce类:

 job类:

 5.运行job

 6.查看D盘文件夹中的运行结果

7.修改在linux上执行的代码

 8.使用eclipse的export功能导出jar包

  

 

 

 9.在linux集群中启动hdfs、yarn。

使用start-dfs.sh和start-yarn.sh命令,启动hdfs和yarn

10.将jar上传到linux中,并.使用 hadoop jar WordCountDriver.jar 运行程序

 11.在hdfs中查看运行结果。

输入命令hdfs dfs -cat /dd/output.txt/part-r-00000查看运行结果。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/303068.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号