嘴说手画Spark的Bykey操作-groupByKey、reduceByKey、aggregateByKey 和 sortByKey

之前写过一篇文章分析Spark Shuffle的原理，知道了Shuffle是性能杀手的原因，但在实际业务中，Shuffle操作通常不可避免，毕竟Spark基础的用途就是对大数据进行统计分析，由于数据分布的分散性，导致相同Key的数据汇集到一起进行计算，必然要在网络进行传输。

有4个常见的导致Shuffle的算子，分别是 groupByKey、reduceByKey、aggregateByKey 和 sortByKey

一，groupByKey

groupByKey实现了分组收集，即将相同的key的数据收集到一起，相同的key可能分布在多个节点上，所以需要把相同的key通过网络拉取到同一个节点才能收集。

下图是groupByKey的计算过程示意图，可以看出有网络分发，结果是将相同的key的数据汇集为（key，value集合的形式）。groupByKey是一个效率很低的算子，因为它会导致数据在全网范围内的分发，要慎用。

二，reduceByKey

reduceByKey是一个使用频率比较高的算子，和groupByKey的区别在于reduceByKey会对value值进行聚合操作，且这种聚合操作首先在map端进行，聚合后的数据量会减少，相同key的结果会通过网络分发到同一个节点，然后进行最后一步的聚合。

下图是示意图，可以看见Shuffle过程，也可以看见和groupByKey的不同：在Map端的聚合和网络传输数量的减少。
# 三，aggregateByKey

groupByKey、reduceByKey的底层是aggregateByKey ，其比前二者更灵活，它可以为Map、Reduce阶段指定不同的聚合函数。

比如下面的示意图显示，在Map端进行sum操作，在reduce端进行max操作。

groupByKey、reduceByKey是在Map、Reduce端聚合函数相同的情况下的特殊的aggregateByKey操作。

四，sortByKey

望词生意，sortByKey是对数据按key进行排序。这个算子也会导致数据在全网范围的分发，是一个效率比较低的算子。