这学期的前两个实验都是用Hadoop通过MapReduce来实现大数据分析,老师给出的建议操作系统是Linux。诚然Linux下Hadoop的集群开发是有优势的,但是在编写代码时Linux下的Java配合Hadoop的debug属实是过于复杂,相比之下课程的考察点是对MapReduce的使用,因此使用Windows环境开发也不是不能理解。
- 无需安装虚拟机,Windows本地环境下使用Eclipse通过Hadoop进行MapReduce
- 安装Eclipse
- 安装Hadoop
- 配置Eclipse连接Hadoop
- 配置.jar包
- 加入插件
我使用的是2022-03版本,无需多言,eclipse.org下载就完事儿了
安装Hadoop在这里我使用的是Hadoop3.3.1,建议大家使用3.2.2版本或以下的。安装Hadoop压缩包,安装完成后解压两次。
配置Eclipse连接Hadoop 配置.jar包在Eclipse内的Java Project上 右键 -> Build -> Add Libraries,点击User Library后确认。
点击User Libraries…
点击New…,新建一个jar文件,我将其命名为hadoop。
这里不要勾选下方的小方框
点击Add External JARs,找到自己解压Hadoop的文件夹,把里面.jar文件全给它加进去。完成之后重复 右键 -> Build Path -> Add Libraries -> User Library,勾选hadoop后finish,就忙完一大半了。
进入GitHub相应界面,这里由于我Hadoop版本太高没有版本号匹配的,我就下载了3.2.2版本的,亲测与3.3.1混合可用。点击hadoop-3.2.2.bin后,下载hadoop.dll和winutils.exe,下载完成后将hadoop.dll放入C:WindowsSystem32中,将winutils.exe放入hadoop-3.3.1bin中(我甚至认为不需要winutils.exe也能使用)。重启Eclipse,现在就可以运行MapReduce啦。



