shuffle优化、数据倾斜

shuffle优化

shuffle 就是map到reduce的过程 map阶段:

增大缓冲区的大小：默认100M，可以改为200增大缓冲区的溢写百分比：默认0.8，可以改为0.9减少溢写文件的merge次数采用combiner提前预聚合，减少IO。（不影响业务逻辑的前提下，只能加减，不能做乘除等复杂聚合） Reduce阶段

太少，会导致task等待，延长处理时间太多，会导致map、reduce任务之间竞争资源，造成处理超时等错误

IO传输

采用数据压缩的方式，减少IO时间。map输入端：主要考虑数据量大小和切片，支持切片的有lzo，Bzip2。Lzo要想支持切片必须创建索引map输出端：主要考虑速度，如：snappy，lzoreduce输出端：主要看具体需求，比如：如果有下一个MR阶段，就要考虑切片，永久保存就考虑压缩率比较大的gzip 整体

yarn.nodemanager.resouce.memory-mb：nodemanager默认内存8G。需要根据服务器实际配置灵活调整，例如128G内存，配置为100G内存左右yarn.scheduler.maximum-allocation-mb：单任务默认内存8G。需要根据该任务的数据量灵活调整，例如128m数据，配置1G内存mapreduce.map.memory.mb：默认内存大小为1G。控制分配给MapTask内存上限，如果超过会kill掉进程（报：Container is running beyond physical memory limits. Current usage:565MB of512MB physical memory used；Killing Container）。如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加MapTask内存，最大可以增加到4-5g。mapreduce.reduce.memory.mb：默认内存大小为1G。控制分配给ReduceTask内存上限。如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加ReduceTask内存大小为4-5g。mapreduce.map.java.opts：控制maptask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）mapreduce.reduce.java.opts：控制reducetask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）增加maptask和reducetask的CPU核数增加每个container的CPU核数和内存在hdfs-site.xml文件中配置多目录dfs.namenode.handler.count=20*log2(cluster size): namenode的一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。 MapReduce Shuffle后续优化方向

压缩：对数据进行压缩，减少读写数据量；减少不必要的排序内存化：Shuffle的数据不放在磁盘而是尽量放在内存中，除非逼不得已往磁盘上放；当然了如果有性能和内存相当的第三方存储系统，那放在第三方存储系统上也是很好的数据倾斜

数据倾斜是指分配给每个任务的数据量的不平衡或处理数据所需的工作量的不平衡。在 MapReduce 中，当一个节点在 Map 或 Reduce 阶段分配要处理的数据多于其他节点时，就会发生倾斜

数据倾斜的原因

解决方案：
第一种：可以直接不让null值参与join操作，就是不让null值有shuffle阶段
第二种：因为null值参与shuffle时的hash结果是一致的，那么我们可以给null值随机赋值，这样它们的hash结果就不一样，就会进到不同的reduce中：

解决方案: 把int转为string统一key的数据类型

解决方案: 将使用GZIP压缩等不支持文件分割的文件转为bzip和zip等支持文件分割的压缩方式

shuffle优化、数据倾斜

大数据系统相关栏目本月热门文章