栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

sparksql中shuffled hash join策略

sparksql中shuffled hash join策略

背景

sparksql中又很多join策略,其中有一个是shuffled hash join.这个用的比较多,但是又说不明白其原理,我各种百度,各种谷歌,最后在stackoverflow找到了一份资料,链接如下:https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram
如果不能访问,请自行梯子

原理 先上总图

  • 首先将tableA和tableB进行按照key,进行hash取摸,也就是重新shuffle一次,得到相同数目分区的重新排列,每个桶中的数据(已经为join做好准备,正常情况下直接按照桶的顺序进行join即可得到join结果)
  • 取小表某个分区的数据,进行broadcast到大表对应的分区(举个例子,小表0号分区,构建一个hashtable,然后broadcast到大表0号分区)
  • 每个分区进行进行join即可
场景以及优缺点

场景:大表和小表差异在3倍之内,且不需要排序的sql,因为有broadcast,所以 也要满足大小限制
缺点:因为broacast,所以容易oom
优点:适用场景较多,效率要比merg sort join快上不少

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/307981.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号