栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

apache-spark的cache()/ persist()内存消耗

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

apache-spark的cache()/ persist()内存消耗

尝试使用更多分区,每个CPU应该有2-4个分区。IME增加分区数量通常是使程序更稳定(通常更快)的最简单方法。

默认情况下,我认为您的代码将使用24个分区,但是对于50 GB的数据而言,这太少了。我会尝试至少几个分区。

接下来,您要使用

SPARK_MEM=5g
每个节点有7.5 GB的空间,因此最好也有
SPARK_MEM=7500m

您也可以尝试增加内存比例,但我认为以上方法可能会有所帮助。

一般要点:为您的文件而不是s3使用HDFS,速度要快得多。确保在缓存数据之前适当地调整数据-
例如,如果您说有100列的TSV数据,但仅使用了10个字段,那么在尝试缓存之前,请确保已提取这些字段。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/414438.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号