栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

一行代码Pandas升级为PySpark

一行代码Pandas升级为PySpark

1. 简介

Apache Spark 社区于 2021 年 10 月 13 日发布了 Spark 3.2.0。他们在 Spark 上包含了一个 Pandas API,作为他们主要更新的一部分。Pandas 是数据科学家中一个功能强大且众所周知的软件包。但是,Pandas 在处理大数据方面有其自身的局限性,因为它是在一台机器上处理数据。为了弥合这一差距

Spark 3.2.0 增加了 Pandas API,避免了使用第三方库。现在,Pandas 用户仍然可以保留他们的 Pandas,并将流程扩展到多节点 Spark 集群。Spark 3.2.0 上的 Pandas API的实现如下,

为 pandas-on-Spark 启用 mypy

实现 CategoricalDtype 支持

完成 Series 和 Index 的基本操作

将行为匹配到 Pandas 1.3

将带有 NaN 的 Series 上的行为与 Pandas 匹配

实现整数系列和索引的一元运算符“反转”

实现 CategoricalIndex.map 和 DatetimeIndex.map

实施 Index.map

2. 目的

本文专门介绍了如何使用 Spark 上的 Pandas API 来:

将数据读取为 pandas-spark 数据帧 (df)

将数据读取为 spark df 并转换为 pandas-spark df

创建 Pandas Spark df

直接使用 SQL 查询到 pandas-spark df

使

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/736025.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号