以下是有关Hadoop为Terasort实施的一些详细信息:
TeraSort是标准的map /
reduce排序,但自定义分区程序除外,该分区程序使用N-1个采样键的排序列表来定义每个reduce的键范围。特别是,发送所有采样,使sample
[i-1] <= key <sample [i]减少i。这保证了reduce i的输出都小于reduce i + 1的输出。”
因此,他们的诀窍在于在地图阶段确定键的方式。从本质上讲,它们确保单个减速器中的每个值都保证与所有其他减速器“预排序”。
我通过James Hamilton的Blog
Post找到了该论文的参考资料。



