Apache Spark 社区于 2021 年 10 月 13 日发布了 Spark 3.2.0。他们在 Spark 上包含了一个 Pandas API,作为他们主要更新的一部分。Pandas 是数据科学家中一个功能强大且众所周知的软件包。但是,Pandas 在处理大数据方面有其自身的局限性,因为它是在一台机器上处理数据。为了弥合这一差距
Spark 3.2.0 增加了 Pandas API,避免了使用第三方库。现在,Pandas 用户仍然可以保留他们的 Pandas,并将流程扩展到多节点 Spark 集群。Spark 3.2.0 上的 Pandas API的实现如下,
为 pandas-on-Spark 启用 mypy
实现 CategoricalDtype 支持
完成 Series 和 Index 的基本操作
将行为匹配到 Pandas 1.3
将带有 NaN 的 Series 上的行为与 Pandas 匹配
实现整数系列和索引的一元运算符“反转”
实现 CategoricalIndex.map 和 DatetimeIndex.map
实施 Index.map
2. 目的本文专门介绍了如何使用 Spark 上的 Pandas API 来:
将数据读取为 pandas-spark 数据帧 (df)
将数据读取为 spark df 并转换为 pandas-spark df
创建 Pandas Spark df
直接使用 SQL 查询到 pandas-spark df
使



