栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hive 的 order by, sort by, distribute by, cluster by 区别

hive 的 order by, sort by, distribute by, cluster by 区别

order by 全局排序. 会固定使用一个 reducer 来处理数据, 当数据量特别大时, 容易内存溢出, 推荐搭配 limit 使用 sort by 在每个 reducer 下排序, 数据划分到哪个 reducer 是随机的, 一般搭配 distribute by 使用 distribute by 指定数据划分到哪个 reducer 的依据字段, 例如 distribute by salary, 表示根据薪水判断使用哪个 reducer 排序 cluster by 等效于 sort by 加上 distribute by, 并且固定是 asc 的排序. 例如 distribute by salary sort by salary 等效于 cluster by salary

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/752833.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号