- 简介
-
- spark 环境下载
- conda 环境
- spark dataframe 转换为pandas dataframe 的数据类型对应
- python 执行 字符串代码
- 参考文献
简介
目前混合编程的需求越来越多,有的时候需要大数据处理一批数据,但是数据处理的时候只有python 编写的 基于pandas 的数据处理代码,怎么办呢,我们需要想办法把之前的数据处理代码复用起来。
spark 3.2 版本 尝试将 pandas dataframe 的api 和spark 的api 统一起来。
比如 :koalas 这个项目:在spark 3.1 之前,使用他来统一两者的api,在3.2 版本开始,PySpark 则可以直接使用。
https://github.com/databricks/koalas



