栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hive中Group by 与sort by 的区别

Hive中Group by 与sort by 的区别

Hive中Group by 与sort by 的区别

1、ORDER BY 用于全局排序,就是最指定的所有排序键进行全局排序,使用ORDER BY 的查询语句,最后会用一个Reduce Task来完成全局排序。

2、sort by用于分区内排序,即每个Reduce 任务内排序。则sort by 只保证每个reduce的输出有序,不能保证全局有序。

3、distribute by (字段)根据指定的字段将数据分到不同的reducer,且分发算法是hash散列。

4、cluster by(字段)处理具有Distribute by 的功能外,还兼具sort by 的排序功能。

因此,如果分桶和sort字段是同一个时,此时,cluster by =distribute by + sort by

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/278527.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号