栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark RDD 原理及源码汇总

Spark RDD 原理及源码汇总

文章目录
    • 一.介绍
    • 二.案例
    • 三.RDD 的核心特征和属性
      • 3.1 简介
      • 3.2 小结
    • 四.源码

一.介绍

RDD 作为 Spark 对于分布式数据模型的抽象,是构建 Spark 分布式内存计算引擎的基石。很多 Spark 核心概念与核心组件,如 DAG 和调度系统都衍生自 RDD。因此,深入理解 RDD 有利于你更全面、系统地学习 Spark 的工作原理。
尽管 RDD API 使用频率越来越低,绝大多数人也都已经习惯于 Dataframe 和 Dataset API,但是,无论采用哪种 API 或是哪种开发语言,你的应用在 Spark 内部最终都会转化为 RDD 之上的分布式计算。换句话说,如果你想要在运行时判断应用的性能瓶颈,前提是你要对 RDD 足够了解。

《Spark: Cluster Computing with Working Sets》RDD 的概念。RDD,全称 Resilient Distributed Datasets,翻译过来就是弹性分布式数据集。本质上,它是对于数据模型的抽象,用于囊括所有内存中和磁盘中的分布式数据实体

二.案例

薯片加工

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/329399.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号