栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区(python版)

大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区(python版)

大数据-玩转数据-Spark-RDD编程基础-RDD持久化与分区(python版)

一、持久化
根据Spark的RDD惰性计算机制,每次调用行动计算,都将触发一次从头计算,对于迭代计算,资源消耗代价较大 。
我们可以用持久化(缓存)机制来避免这种重复计算。
persis(MEMORY_ONLY):将RDD对象作为反序列化对象存储在JVM,如果内存不足,用LRU原则替换缓存中的内容。
persis(MEMORY_AND_DISK): 将RDD对象作为反序列化对象存储在JVM,如果内存不足,超出部分存储在硬盘。
而 cache() 方法会调用 persis(MEMORY_ONLY) 。

>>> list = ["Hadoop","Spark","Hive"
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/698807.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号