order by 全局排序. 会固定使用一个 reducer 来处理数据, 当数据量特别大时, 容易内存溢出, 推荐搭配 limit 使用 sort by 在每个 reducer 下排序, 数据划分到哪个 reducer 是随机的, 一般搭配 distribute by 使用 distribute by 指定数据划分到哪个 reducer 的依据字段, 例如 distribute by salary, 表示根据薪水判断使用哪个 reducer 排序 cluster by 等效于 sort by 加上 distribute by, 并且固定是 asc 的排序. 例如 distribute by salary sort by salary 等效于 cluster by salary



