Spark框架——RDD算子mapPartitions迭代器(基于Scala语言)

大数据系统更新时间：2026-05-02 01:50:36 发布时间：1495天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

//collect一般都在定义的函数外面收集
class TransformationOp {
  val conf: SparkConf =new SparkConf().setMaster("local[6]").setAppName("Trans_formationOp")
  val sc=new SparkContext(conf)

  @junit.Test
  def mapPartitions(): Unit ={
    //1.数据的生成
    //2.算子使用
    //3.获取结果
    sc.parallelize(Seq(1,2,3,4,5,6),2)
      .mapPartitions(iter=>{
          iter.foreach(item => println(item))//放在迭代器内和外有啥区别
        iter//需要一个返回值
      })
      .collect()
  }

  @junit.Test
  def mapPartitions1(): Unit = {
    sc.parallelize(Seq(1, 2, 3, 4, 5, 6), 2)
      .mapPartitions(iter => {
        //遍历iter其中每一条数据进行转换,转换完以后,返回这个iter
        iter.map(item => item * 10)
        //返回值应该是定义foreach的变量
      })
        .collect()
        .foreach(item => println(item))//没有返回值

  }

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/779343.html

上一篇洛谷-数字统计（c++实现）

下一篇实习踩坑之路：一个ElasticSearchJava客户端的批量处理操作bulkIndexAsync引发的内存泄漏的血案

大数据系统相关栏目本月热门文章

关于我们文章归档网站地图联系我们