栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

大数据RDD详解笔记

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

大数据RDD详解笔记

1.为什么需要RDD?

RDD(Resilient Distribute Datasets):弹性分布式数据集

2.RDD的五大特性

前三个是必须的,后面两个是可选的。

1.RDD是有分区的
RDD的分区是RDD数据存储的最小单位,一份RDD数据本质上被分成了很多分区。
分区是物理概念,RDD是逻辑上的概念,和列表字典一样。
2.计算方法会作用到每一个分区之上

3.RDD之间是有互相依赖关系的

4.Key- Value型的RDD可以有分区

5.RDD的分区规划,会尽量靠近数据所在的服务器

3.wordcount案例的RDD分析图

4.程序执行入口:SparkContext 对象

5.RDD的两种创建方式


1.并行化创建,使用parallelize()创建

2.读取文件创建,使用textFile()以及wholeTextFile()创建

6.RDD算子概念和分类

算子是什么:分布式集合对象上的API叫做算子
本地对象的API,叫做方法/函数
分布式对象的API,叫做算子
算子我们可以分成两类:

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/876895.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号