栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark RDD与DataFrame的区别与联系

Spark RDD与DataFrame的区别与联系


区别:
RDD是分布式的java对象的集合,但是对象内部结构对于RDD而言却是不可知的。
Dataframe是一种以RDD为基础的分布式数据集,提供了详细的结构信息,相当于关系数据库中的一张表
联系
1.都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利
2、都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action才会运算
3.都会根据spark的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出
4、三者都有partition的概念
5.三者有许多共同的函数,如filter,排序等

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/673773.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号