栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark SQL Join机制

Spark SQL Join机制

在平时的工作中,join是一个高频使用的操作,spark有以下几种关联形式

这里不详细赘述每种jion操作。重点探讨这些关联方式实现的关联机制。通常我们会将大表写在前面,小表写在后面,在实现机制里面 关联的左表叫做 驱动表,右表叫做基表。有下面3中实现方式。

NLJ:Nested Loop Join

实现机制就是 嵌套循环机型对比,左表外层循环,假如有M条记录,右表内存循环,假如N条件记录,算法的复杂度O(M*N),简单清晰,但效率低。

SMJ:Sort Merge Join

顾名思义,即先排序,再关联。数据排好序之后,数据排序特点,犹如游标卡尺。

①如果关联条件相等,输出2边结果,跳到下一游标行。

②如果关联条件不相等,左表id < 右表id,左表游标跳下一游标行。

③如果关联条件不相等,左表id > 右表id,右表游标跳下一游标行。

算法复杂度O(M+N),但排序需要消耗性能

HJ:Hash Join

以空间换时间,将基表制作成一个散列表(哈希表),关联的算法复杂度为O(1)。

单机的join,掌握NLJ、SMJ、HJ三种实现机制即可;分布式join的话,还需要考虑是shuffle join,还是Broadcast join

shuffle join

 spark shuffle机制根据值对应的hash值,把数据分发到对应的executor上,然后在在executor中执行NLJ、SMJ、HJ三种关联机制。因为shuffle的机制,所以本身的IO开销,shuffle也是大数据场景中的一个瓶颈。

Boradcast Join

spark boradcast join 将右边进行boradcast 把数据分发 到driver、executor上进行缓存,,将join机制变成map join,这种机制受到内存资源的限制。 这种机制要求广播的数据量不能太大,spark 默认的参数 sql.autoBroadcastJoinThreshold=10M。

综合以上,可看到分布式join可有6中机制。

shuffle joinNLJ、SMJ、HJ
broadcast joinNLJ、SMJ、HJ

spark本身支持5种的关联,分别是

等值关联Brocast HJ、Suffle SMJ、Suffle HJ、
不等值关联Boracast NLJ、Shuffle NLJ

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/780718.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号