实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

spark（四）：RDD介绍

大数据系统更新时间：2026-05-21 12:57:47 发布时间：1663天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

文章目录

说明
分享
什么是RDD
RDD生命周期
- 创建RDD
- RDD变换
- RDD缓存
- RDD结果处理
RDD特性
总结

说明

本博客每周五更新一次。
RDD 是spark计算引擎重要的数据结构，使用RDD开发业务，必须深入学习使用它。

分享

大数据博客列表

什么是RDD

RDD（Resilient Distributed Dataset）弹性分布式数据集，spark中最重要数据结构概念，代表一个不可变、可分区、可并行计算的集合，逻辑上是一个数据集，物理上可以分块分布在不同的机器上并发运行。
RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性，能分布在集群的节点上，以函数式操作集合的方式，进行各种并行计算。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。
RDD内置大量函数，可以大大提升开发效率，快速完成功能开发。

RDD生命周期

spark程序中，首先创建或读取RDD，然后对数据进行一系列一次或多次变换操作（Transform），并对保存中间结果（Cache），最后对结果进行处理（Action）。

创建RDD

RDD的创建可以通过对内存中的数据并行化计算结果，或直接读取分布式数据库（S3, HDFS, Cassandra 等等）创建，也可以直接读取本地文件创建。

RDD变换

RDD变换操作支持数据变换接口，常见如filter, map等等，执行到变换代码是，RDD数据并不立即发生实际变化（Lazily transform），而是保存数据的依赖关系，直到最终RDD进行动作（Action）时。RDD系统从全局角度来优化Transform的运行过程，节省计算时间。

RDD缓存

缓存（cache）操作将数据的中间结果保存在内存中，以便反复使用。

RDD结果处理

RDD结果处理（action）操作将数据的运算结果进行统计和返回。常见如count 和 collect。

RDD特性

RDD默认有如下重要特性。

如何分块（Partition）
与父RDD依赖关系（Dependency）
从父RDD求子RDD的函数（Function）
当前RDD存储位置（Preferred Localtion）
存储RDD分块类（Partitioner）

总结

RDD是Spark数据集合的一种，还有Dataframe、DataSet等。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/354652.html

上一篇 python 面试必问，不会真的要被打脸~

下一篇 socket.timeout:The read operation timed out

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号