栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark框架——RDD算子mapPartitions迭代器(基于Scala语言)

Spark框架——RDD算子mapPartitions迭代器(基于Scala语言)


//collect一般都在定义的函数外面收集
class TransformationOp {
  val conf: SparkConf =new SparkConf().setMaster("local[6]").setAppName("Trans_formationOp")
  val sc=new SparkContext(conf)

  @junit.Test
  def mapPartitions(): Unit ={
    //1.数据的生成
    //2.算子使用
    //3.获取结果
    sc.parallelize(Seq(1,2,3,4,5,6),2)
      .mapPartitions(iter=>{
          iter.foreach(item => println(item))//放在迭代器内和外有啥区别
        iter//需要一个返回值
      })
      .collect()
  }

  @junit.Test
  def mapPartitions1(): Unit = {
    sc.parallelize(Seq(1, 2, 3, 4, 5, 6), 2)
      .mapPartitions(iter => {
        //遍历iter其中每一条数据进行转换,转换完以后,返回这个iter
        iter.map(item => item * 10)
        //返回值应该是定义foreach的变量
      })
        .collect()
        .foreach(item => println(item))//没有返回值

  }

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/779343.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号