栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

嘴说手画Spark的Bykey操作-groupByKey、reduceByKey、aggregateByKey 和 sortByKey

嘴说手画Spark的Bykey操作-groupByKey、reduceByKey、aggregateByKey 和 sortByKey

之前写过一篇文章分析Spark Shuffle的原理,知道了Shuffle是性能杀手的原因,但在实际业务中,Shuffle操作通常不可避免,毕竟Spark基础的用途就是对大数据进行统计分析,由于数据分布的分散性,导致相同Key的数据汇集到一起进行计算,必然要在网络进行传输。

有4个常见的导致Shuffle的算子,分别是 groupByKey、reduceByKey、aggregateByKey 和 sortByKey

一,groupByKey

groupByKey实现了分组收集,即将相同的key的数据收集到一起,相同的key可能分布在多个节点上,所以需要把相同的key通过网络拉取到同一个节点才能收集。

下图是groupByKey的计算过程示意图,可以看出有网络分发,结果是将相同的key的数据汇集为(key,value集合的形式)。groupByKey是一个效率很低的算子,因为它会导致数据在全网范围内的分发,要慎用。

二,reduceByKey

reduceByKey是一个使用频率比较高的算子,和groupByKey的区别在于reduceByKey会对value值进行聚合操作,且这种聚合操作首先在map端进行,聚合后的数据量会减少,相同key的结果会通过网络分发到同一个节点,然后进行最后一步的聚合。

下图是示意图,可以看见Shuffle过程,也可以看见和groupByKey的不同:在Map端的聚合和网络传输数量的减少。
# 三,aggregateByKey

groupByKey、reduceByKey的底层是aggregateByKey ,其比前二者更灵活,它可以为Map、Reduce阶段指定不同的聚合函数。

比如下面的示意图显示,在Map端进行sum操作,在reduce端进行max操作。

groupByKey、reduceByKey是在Map、Reduce端聚合函数相同的情况下的特殊的aggregateByKey操作。

四,sortByKey

望词生意,sortByKey是对数据按key进行排序。这个算子也会导致数据在全网范围的分发,是一个效率比较低的算子。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/650310.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号