栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark: foreach,map,foreachPartition

Spark: foreach,map,foreachPartition

  1. foreach算子对RDD中数据遍历,通过累加器进行计算,没有返回值,是在Driver端执行.(action算子)。
  2. map算子对RDD中数据遍历,通过累加器进行计算,有返回值,在executor端执行.(transformation算子)。

  3. mapPartitions:用于遍历操作RDD中的每一个分区,返回生成一个新的RDD(transformation算子)。

  4. foreachPartition: 用于遍历操作RDD中的每一个分区。无返回值(action算子)。                               

  5. 总结:一般使用mapPartitions或者foreachPartition算子比map和foreach更加高效,推荐使用。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/698597.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号