
上次我们已经搭建了Hadoop的伪分布式环境,并且运行了一下Hadoop自带的例子–WordCount程序,展现良好。但是大多数时候还是得自己写程序,编译,打包,然后运行的,所以做一次自编译打包运行的实验。
编辑程序
在Eclipse或者NetBeans中编辑WordCount.java程序,用IDE的好处就是我们可以更方便的选择各种依赖的jar包,并且它会帮我们编译好,我们只需要去workspace中拿出class文件打包就好了,或者直接打包就行。而不用在命令行输入很多依赖jar包去打包,这样更加省事。
1.新建Java Project,名为WordCount,然后建立一个叫test的package,新建WordCount.java,编辑好。结构如下:

2.这时候我们的workspace/WordCount/bin/test目录下自动生成了编译好的三个class文件。

3.将class文件打包。如下图所示,在bin/test目录下输入
- $ jar cvf WordCount.jar test/
即可将class文件打包为WordCount.jar.

4.运行hdfs:
- $ cd /usr/local/hadoop $ ./sbin/start-dfs.sh
- $ jps //检查是否启动NameNode,DataNode等
5.往HDFS上的input文件夹中put一个文本文件或者xml文件,上篇文章有讲。比如:
- $ hadoop fs -put /usr/local/hadoop/etc/hadoop public static class TokenizerMapper extends Mapper