栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何将巨大的pandas数据帧保存到HDFS?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何将巨大的pandas数据帧保存到HDFS?

意思是有一个熊猫数据框,我在pyarrow的帮助下将其转换为火花。

pyarrow.Table.fromPandas

是您要寻找的功能:

Table.from_pandas(type cls, df, bool timestamps_to_ms=False, Schema

schema=None, bool preserve_index=True)

Convert pandas.Dataframe to an Arrow Table
import pyarrow as papdf = ...  # type: pandas.core.frame.Dataframeadf = pa.Table.from_pandas(pdf)  # type: pyarrow.lib.Table

结果可以直接写入Parquet / HDFS,而无需通过Spark传递数据:

import pyarrow.parquet as pqfs  = pa.hdfs.connect()with fs.open(path, "wb") as fw    pq.write_table(adf, fw)

笔记

此外,由于

createDataframe
(SPARK-20791-使用Apache Arrow从Pandas.Dataframe改进Spark
createDataframe)直接支持Spark
2.3(当前主版本)Arrow
。它用于
SparkContext.defaultParallelism
计算块数,因此您可以轻松控制单个批次的大小。

最后,

defaultParallelism
可用于控制使用标准生成的分区的数量,从而
_convert_from_pandas
有效地将片的大小减小到更易于管理的程度。

不幸的是,这些不太可能解决您当前的内存问题。两者都依赖

parallelize
,因此将所有数据存储在驱动程序节点的内存中。切换到箭头或调整配置只能加快过程或地址块大小的限制。

实际上,只要您使用本地熊猫

Dataframe
作为输入,我看不出有任何理由在这里切换到Spark 。在这种情况下,最严重的瓶颈是驱动程序的网络I /
O,而分发数据将无法解决该问题。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/639467.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号