大数据开发问题整理-Hadoop

2021秋季 PKU信科研究生课程《网络大数据管理理论与应用》共五次作业，其中包括三个Hadoop作业、一个Spark作业以及一个期末大作业。在做这些作业的过程中，遇到了一些环境问题和开发问题，其中一部分问题记录下了解决办法，在此整理一下做备忘之用。后续可能会把环境配置、新建项目和作业实现过程等也放上来。

1、eclipse工作区重启要更新

This workspace was written with a different version of the product and needs to be updated.

解决办法：
在Workspace.metadata 这个目录下有个文件 version.ini，里面配置的是初始Eclipse版本信息的，修改版本信息或者删除这个文件就可以了

cd /home/yaqing/workspace/.metadata
rm version.ini

2、续上，打开后会发现工作区没有项目
解决办法：
File->import，导入工作区外的项目文件即可

3、启动集群
在Master上：

cd /usr/local/hadoop-2.6.0/sbin
bash start-dfs.sh
bash start-yarn.sh

4、查看集群情况

jps

若启动成功，显示如下：

5、mapper和reducer输入输出类型与预设类型不匹配，导致无法进行键值对映射

Type mismatch in value from map

解决办法：
首先看一下map的输出和reduce的输入是不是对应的；
然后看看job的下面四个设置是否正确：

job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(ArrayListWritable.class);

6、hdfs安全模式，导致项目无法运行

Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
Name node is in safe mode.

解决办法：
在Hadoop的目录下输入：

bin/hadoop dfsadmin -safemode leave

也就是关闭Hadoop的安全模式

大数据开发问题整理-Hadoop

大数据系统相关栏目本月热门文章