栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hive中四种排序

hive中四种排序

全局排序--order by

order by对整表数据进行排序,使用一个reducer,ASC升序(默认),desc降序,在企业中一般禁止该操作,因在企业中数据量都非常大,而该操作又只有一个reducer,耗时有风险。

每个reduce内部排序--sort by

sort by为每个reducer产生一个排序文件,每个reducer内部进行排序,对全局结果集来说并不是排序。

分区--distribute by

distribute by类似MR中partition(自定义分区),进行分区,结合sort by使用。distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后,余数相同的分到一个区。Hive要求distribute by语句要写在sort by语句之前。

Cluster by

当distribute by和sort by字段相同时,可以使用cluster by的方式。cluster by除了具有distribute by的功能外,还兼具sort by的功能。但是排序只能是升序排序,不能指定排序规则。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/422897.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号