- foreach算子对RDD中数据遍历,通过累加器进行计算,没有返回值,是在Driver端执行.(action算子)。
-
map算子对RDD中数据遍历,通过累加器进行计算,有返回值,在executor端执行.(transformation算子)。
-
mapPartitions:用于遍历操作RDD中的每一个分区,返回生成一个新的RDD(transformation算子)。
-
foreachPartition: 用于遍历操作RDD中的每一个分区。无返回值(action算子)。
-
总结:一般使用mapPartitions或者foreachPartition算子比map和foreach更加高效,推荐使用。



