Spark: Data Skew 优化_大数据系统

Spark: Data Skew 优化

什么是数据倾斜？

数据倾斜data skew是在表的数据的不同分区partition数据在集群里面分布不均衡的现象。
数据倾斜会带来作业性能尤其是Join的时候。当join发生在几个大表之间，发生shuffle的时候，数据倾斜会带来工作节点严重的负载不均衡Imbalance。例如有在200个task中有3个task会远远慢于其他worker.

数据倾斜原因

当join需要shuffle 的时候，需要根据Join字段重新分布，由于spark按照字段hash值来进行组织partition，并且一个partition 对应一个task，这就会导致数据重复的字段都会集中到一个partition并且传导到集中到一个task上面。

如何解决倾斜字段加盐salt

倾斜字段上面加上随机数，这样可以每个分区上均衡分布。人为的对倾斜字段的高频次数值加盐。

增加skew hint

改变执行计划，不要在倾斜字段上面做shuffle。

-- single column, single skew value
SELECt /*+ SKEW('orders', 'o_custId', 0) */ *
  FROM orders, customers
  WHERe o_custId = c_custId

-- single column, multiple skew values
SELECt /*+ SKEW('orders', 'o_custId', (0, 1, 2)) */ *
  FROM orders, customers
  WHERe o_custId = c_custId

-- multiple columns, multiple skew values
SELECt /*+ SKEW('orders', ('o_custId', 'o_storeRegionId'), ((0, 1001), (1, 1002))) */ *
  FROM orders, customers
  WHERe o_custId = c_custId AND o_storeRegionId = c_regionId

使用broadcast join

只是对小表有效，避免了shuffle操作。

-- Join Hints for broadcast join
SELECt /*+ BROADCAST(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
SELECt /*+ BROADCASTJOIN (t1) */ * FROM t1 left JOIN t2 ON t1.key = t2.key;
SELECt /*+ MAPJOIN(t2) */ * FROM t1 right JOIN t2 ON t1.key = t2.key;

启动Adaptive query execution (AQE)

spark 3.2之后就默认启动了AQE。其原理就是改变一个partition对应一个task的问题，可以一个partition对应n个task，并且是动态调整。

Spark: Data Skew 优化

大数据系统相关栏目本月热门文章