栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hive SQL优化

Hive SQL优化

  1. 减少使用distinct,用group by 代替
  2. 查询条件中减少使用条件
  3. 避免使用select *
  4. 尽量避免一个SQL包含复杂逻辑,使用中间表来完成复杂的逻辑
  5. 小表在前,大表灾后,因为jion左边的表会加载到内存,使用map join代替join
数据倾斜的原因及解决方案
  1. 空值或无意义值
  • 原因:如果缺失项很多,在做join时这些空值会非常集中,拖累进度
  • 解决方案:若不需要空值,提前过滤掉;若需要,将空值用随机的方式打散
  1. 不同类型关联产生的数据倾斜
  • 如果join的两个key数据类型不同,则需要转换为同一类型,因为默认的hash会按照int型发送到reduce上,会导致非int类型的记录全部发送到一个reduce上面。
  1. 聚合时某个key 的数据较多
  • 加入随机数进行聚合。
参考文章

1.https://blog.csdn.net/qq_24271537/article/details/113216807)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/313047.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号