Hadoop之数据倾斜_大数据系统

Hadoop之数据倾斜

项目场景：

在对爬虫过来的数据进行数据分析时，出现OOM问题

问题描述：数据倾斜现象

数据频率倾斜——某一个区域的数据量要远远大于其他区域。
数据大小倾斜——部分记录的大小远远大于平均值。

一般发生在reduce端，其他任务10s以内就执行完了，有一个任务执行了50分钟还没有执行完，程序卡在99%不动了，甚至爆出了内存溢出。

原因分析：（1）一般是由于大量的key为空导致的（2）导致数据倾斜的key大量分布在相同的mapper，map端解决：

具体步骤如下：

提前在map进行combine，减少传输的数据量
在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，较少了shuffle过程中传输的数据量，以及Reducer端的计算量,如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。

（3）导致数据倾斜的key大量分布在不同的mapper，reduce端解决：

生产环境，可以直接过滤掉空值，因为key为空的数据会进入到一个reduce；如果想保留空值，就自定义分区，将空值加随机数打散。最后再二次聚合。
自定义分区具体步骤如下：

	第一次在map阶段对那些导致了数据倾斜的key加上1到n的随机前缀（null+1，null+2，...），这样本来相同的key也会被分到多个Reducer中进行局部聚合，数量就会大大降低。
	第二次mapreduce，去掉key的随即前缀，进行全局聚合。
	思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的，第二次再根据去掉key的随即前缀，按原来key进行reduce处理。这个方法进行两次mapreduce，性能稍差。

（4）设置多个reduce个数

增加Reducer，提升并行度 JobConf.setNumReduceTasks(int)

解决方案：

在map端combiner，reduce端自定义分区，同时提高reduce个数

Hadoop之数据倾斜

大数据系统相关栏目本月热门文章