2021秋季 PKU信科研究生课程《网络大数据管理理论与应用》共五次作业,其中包括三个Hadoop作业、一个Spark作业以及一个期末大作业。在做这些作业的过程中,遇到了一些环境问题和开发问题,其中一部分问题记录下了解决办法,在此整理一下做备忘之用。后续可能会把环境配置、新建项目和作业实现过程等也放上来。
1、eclipse工作区重启要更新
This workspace was written with a different version of the product and needs to be updated.
解决办法:
在Workspace.metadata 这个目录下有个文件 version.ini,里面配置的是初始Eclipse版本信息的,修改版本信息或者删除这个文件就可以了
cd /home/yaqing/workspace/.metadata rm version.ini
2、续上,打开后会发现工作区没有项目
解决办法:
File->import,导入工作区外的项目文件即可
3、启动集群
在Master上:
cd /usr/local/hadoop-2.6.0/sbin bash start-dfs.sh bash start-yarn.sh
4、查看集群情况
jps
若启动成功,显示如下:
5、mapper和reducer输入输出类型与预设类型不匹配,导致无法进行键值对映射
Type mismatch in value from map
解决办法:
首先看一下map的输出和reduce的输入是不是对应的;
然后看看job的下面四个设置是否正确:
job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(Text.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(ArrayListWritable.class);
6、hdfs安全模式,导致项目无法运行
Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
Name node is in safe mode.
解决办法:
在Hadoop的目录下输入:
bin/hadoop dfsadmin -safemode leave
也就是关闭Hadoop的安全模式



