栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

Spark RDD算子操作

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Spark RDD算子操作


  一.、RDD概述
  •       - RDD 是 Spark提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。
  •      - RDD 是 Spark 的计算模型。RDD(Resilient Distributed Dataset)叫做弹性的分布式数据集合,是Spark 中最基本的数据抽象,它代表一个不可变、只读的,被分区的数据集。操作 RDD就像操作本地集合一样,有很多的方法可以调用,使用方便,而无需关心底层的调度细节。
 二、RDD操作         1、RDD转换操作

                RDD 的转换操作是返回新的 RDD 的操作。

函数名作用示例结果
map()将函数应用于 RDD 的每个元素,返回值是新的 RDDrdd1.map(x=>x+l){2,3,4,4}
flatMap()将函数应用于 RDD 的每个元素,将元素数据进行拆分,变成迭代器,返回值是新的 RDDrdd1.flatMap(x=>x.to(3)){1,2,3,2,3,3,3}
filter()函数会过滤掉不符合条件的元素,返回值是新的 RDDrdd1.filter(x=>x!=1){2,3,3}
distinct()将 RDD 里的元素进行去重操作rdd1.distinct()(1,2,3)
union()生成包含两个 RDD 所有元素的新的 RDDrdd1.union(rdd2){1,2,3,3,3,4,5}
        2、RDD行动操作

                行动操作用于执行计算并按指定的方式输出结果。

函数名作用实例
collect()返回RDD的所有元素rdd.collect()
count()RDD 里元素的个数rdd.count()
take(num)从 RDD 中返回 num 个元素rdd.take(2)
reduce()并行整合所有 RDD 数据,如求和操作rdd.reduce((x,y) => x + y)
top(num)从 RDD 中,按照默认(降序)或者指定的排序返回最前面的 num 个元素

rdd.top(2)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/328480.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号