实验四 MapReduce编程
1 实验目的
- 使用Hadoop的分布式存储HDFS系统存储数据;
- 使用MapReduce进行编程;
- 通过YARN资源管理框架运行MapReduce,验证结果。
2 实验内容
启动Hadoop集群,使用命令行方式往文件系统中添加数据,是MapReduce进行文件单词量的统计,将结果输出。
包括在Windows中实现和在Linux的Hadoop集群中实现。
3 实验知识点
- Hadoop;
- Java;
- HDFS;
- MapReduce编程;
- Windows下MapReduce运行分析;
- Linux下MapReduce运行分析。
4 实验时长
8学时。
5 实验环境
- Linux;
- Hadoop;
- Java
6 实验过程
1.创建Java项目testmr
2.在项目下新建lib文件夹,将jar包拷贝进入
3.在java bulid path中引入lib文件夹中所有的jar包
4 编写 map、reduce、job代码
map类:
reduce类:
job类:
5.运行job
6.查看D盘文件夹中的运行结果
7.修改在linux上执行的代码
8.使用eclipse的export功能导出jar包
9.在linux集群中启动hdfs、yarn。
使用start-dfs.sh和start-yarn.sh命令,启动hdfs和yarn
10.将jar上传到linux中,并.使用 hadoop jar WordCountDriver.jar 运行程序
11.在hdfs中查看运行结果。
输入命令hdfs dfs -cat /dd/output.txt/part-r-00000查看运行结果。



