栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark: Data Skew 优化

Spark: Data Skew 优化

什么是数据倾斜?

数据倾斜data skew是在表的数据的不同分区partition数据在集群里面分布不均衡的现象。
数据倾斜会带来作业性能尤其是Join的时候。 当join发生在几个大表之间,发生shuffle的时候,数据倾斜会带来工作节点严重的负载不均衡Imbalance。例如有在200个task中有3个task会远远慢于其他worker.

数据倾斜原因

当join需要shuffle 的时候,需要根据Join字段重新分布,由于spark按照字段hash值来进行组织partition,并且一个partition 对应一个task,这就会导致数据重复的字段都会集中到一个partition并且传导到集中到一个task上面。

如何解决 倾斜字段加盐salt

倾斜字段上面加上随机数,这样可以每个分区上均衡分布。人为的对倾斜字段的高频次数值加盐。

增加skew hint

改变执行计划,不要在倾斜字段上面做shuffle。

-- single column, single skew value
SELECt /*+ SKEW('orders', 'o_custId', 0) */ *
  FROM orders, customers
  WHERe o_custId = c_custId

-- single column, multiple skew values
SELECt /*+ SKEW('orders', 'o_custId', (0, 1, 2)) */ *
  FROM orders, customers
  WHERe o_custId = c_custId

-- multiple columns, multiple skew values
SELECt /*+ SKEW('orders', ('o_custId', 'o_storeRegionId'), ((0, 1001), (1, 1002))) */ *
  FROM orders, customers
  WHERe o_custId = c_custId AND o_storeRegionId = c_regionId
使用broadcast join

只是对小表有效,避免了shuffle操作。

-- Join Hints for broadcast join
SELECt /*+ BROADCAST(t1) */ * FROM t1 INNER JOIN t2 ON t1.key = t2.key;
SELECt /*+ BROADCASTJOIN (t1) */ * FROM t1 left JOIN t2 ON t1.key = t2.key;
SELECt /*+ MAPJOIN(t2) */ * FROM t1 right JOIN t2 ON t1.key = t2.key;
启动Adaptive query execution (AQE)

spark 3.2之后就默认启动了AQE。其原理就是改变一个partition对应一个task的问题,可以一个partition对应n个task,并且是动态调整。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/663646.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号