栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

**解决数据倾斜之方法---加盐

**解决数据倾斜之方法---加盐

1.场景描述

数据倾斜:由于数据分布不均匀,数据集中在某些 SubTask 上,导致部分

SubTask 处理数据量特别大,执行时间过长,影响了整个应用程序的执行效率。

过多的数据集中在某些 JVM(TaskManager),使得 JVM 的内存资源短缺,导

致频繁 GC。严重情况下,过长的 GC 导致 TaskManager 失联,系统崩溃

2 解决方式 (1)数据源的消费不均匀:调整并发度。

对于数据源消费不均匀,比如 Kafka 数据源,通常是通过调整数据源算子的

并发度实现的。

通常情况下 Source 的并发度和 Kafka 的分区个数一样或者 Kafka 分区个数是

Source 并发度的正整数倍。

(2)数据分布不均匀。

(1)通过添加随机前缀打散它们的分布,使得数据不会集中在几个 Task

中。

(2)调用分区方法 rebalance、rescale 操作,使数据分布均匀。

(3)自定义分区器。

(4)聚合统计前,先进行预聚合,例如两阶段聚合(加盐局部聚合+去盐全

局聚合)。
 

select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as winEnd,

plat,

count(*) as pv

from source_kafka_table

group by TUMBLE(proc_time, INTERVAL '1' MINUTE) ,plat

优化后的 SQL:
 

select winEnd,split_index(plat1,'_',0) as plat2,sum(pv) from (

select TUMBLE_END(proc_time, INTERVAL '1' MINUTE) as

winEnd,plat1,count(*) as pv from (

    -- 最内层,将分组的 key,也就是 plat 加上一个随机数打散

    select plat || '_' || cast(cast(RAND()*100 as int) as string) as

plat1 ,proc_time

from source_kafka_table

) group by TUMBLE(proc_time, INTERVAL '1' MINUTE), plat1

) group by winEnd,split_index(plat1,'_',0);

在这个 SQL 的最内层,将分组的 key,也就是 plat 加上一个随机数打散,然

后求打散后的各个分组(也就是 sql 中的 plat1)的 pv 值,然后最外层,将各个

打散的 pv 求和。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/389366.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号