实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 面试经验 > 面试问答

Spark DataFrame方法“ toPandas”实际上在做什么？

面试问答更新时间：2026-05-21 18:05:51 发布时间：1660天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

使用spark将CSV文件读取到中

pandas

是实现将CSV文件读取到内存的最终目标的一种round回方法。

似乎您可能误解了此处使用的技术的用例。

Spark用于分布式计算（尽管可以在本地使用）。通常，它太重了，无法用于简单地读取CSV文件。

在您的示例中，该

sc.textFile

方法将简单地为您提供火花RDD，该火花RDD实际上是文本行列表。这可能不是您想要的。不会执行类型推断，因此，如果您想对CSV文件中的一列数字求和，则将无法执行，因为就Spark而言，它们仍然是字符串。

只需使用

pandas.read_csv

并将整个CSV读取到内存中即可。熊猫会自动推断每列的类型。Spark不会这样做。

现在回答您的问题：

它是否将Pandas对象存储到本地内存 ：

是。

toPandas()

会将Spark Dataframe转换成Pandas Dataframe，它当然在内存中。

熊猫的低级计算是否全部由Spark处理

否。熊猫运行自己的计算，spark和pandas之间没有相互作用，仅存在一些 API兼容性。

它是否公开了所有熊猫数据框功能？

否。例如，

Series

对象具有

interpolate

PySpark

Column

对象中不可用的方法。Pandas
API中有很多方法和函数，而PySpark API中没有。

我可以将它转换为Pandas并完成它，而无需过多接触Dataframe API吗？

绝对。实际上，在这种情况下，您甚至根本不应该使用Spark。

pandas.read_csv

除非你是一个工作很可能会处理你的使用情况庞大的数据量。

尝试使用简单，技术含量低，易于理解的库来解决您的问题，并且仅在需要时才去处理更复杂的问题。很多时候，您将不需要更复杂的技术。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/404561.html

上一篇带有json.dump的JSON对象之间的逗号分隔符

下一篇 Python-从日期时间字符串中删除时间

面试问答相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号