今天我们看一下如何在Python 中使用 Delta Lake,毕竟现在很多人开发Spark任务是通过Python而不是scala,当然这也体现了Spark 生态的完善。
当然我们还是要看一下版本的兼容情况
| Delta Lake version | Apache Spark version |
|---|---|
| 1.0.x | 3.1.x |
| 0.7.x and 0.8.x | 3.0.x |
| Below 0.7.0 | 2.4.2 - 2.4. |
通过上面的表格,我们可以使用Delta Lake 的最新版本,也就是1.0 但是我们的Spark 却不能使用最新版本的,只能使用3.1,这里我们就安装pyspark,执行
pip install pyspark==3.1.2
运行pyspark安装好了,我们就可以运行我们的pyspark
pyspark --packages io.delta:delta-core_2.12:1.0.0 --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSess



