栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

sparksql优化之join

sparksql优化之join

文章目录
  • 前言
  • 1 概念:流式遍历表(streamIter)和查找表(buildIter)
  • 2 概念:sparksql种3种join的实现方式
  • 3 4种join方式
  • 参考文献

前言

本文是以下两篇文章的总结。
Spark SQL join的三种实现方式 - 多读书多看报 - 博客园 (cnblogs.com)

Spark SQL 之 Join 实现 - 云+社区 - 腾讯云 (tencent.com)


1 概念:流式遍历表(streamIter)和查找表(buildIter)

流式遍历表(streamIter)和查找表(buildIter)的概念见Spark SQL 之 Join 实现 - 云+社区 - 腾讯云 (tencent.com)

一般streamlter是大表,bulidler是小表

2 概念:sparksql种3种join的实现方式

sort merge join:有shuffle操作,适用于两张大表

broadcast join:把bulidler表广播到每个executor里,所以builder表应该小一点,sparks中默认builder表小于10M时使用broadcast join方法,适用于大表+小表

hash join:默认不开启,开启了sort merge join也比它差不了太多,适用于大表+小表(比broadcast的小表略大)

3 4种join方式

inner join:我们在写sql语句或者使用DataFrmae时,可以不用关心哪个是左表,哪个是右表,在spark sql查询优化阶段,spark会自动将大表设为左表,即streamIter,将小表设为右表,即buildIter。

left outer join是以左表为准,在右表中查找匹配的记录,如果查找失败,则返回一个所有字段都为null的记录。我们在写sql语句或者使用DataFrmae时,一般让大表在左边,小表在右边。

right outer join是以右表为准,在左表中查找匹配的记录,如果查找失败,则返回一个所有字段都为null的记录。所以说,右表是streamIter,左表是buildIter,我们在写sql语句或者使用DataFrmae时,一般让大表在右边,小表在左边。

full outer join 不用关心左表右表

参考文献

Spark SQL join的三种实现方式 - 多读书多看报 - 博客园 (cnblogs.com)

Spark SQL 之 Join 实现 - 云+社区 - 腾讯云 (tencent.com)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/439168.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号