栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何在PySpark中将数据框保存到Elasticsearch?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何在PySpark中将数据框保存到Elasticsearch?

TL;博士 使用

pyspark --packages org.elasticsearch:elasticsearch-hadoop:7.2.0
和使用
format("es")
,以引用连接器。


从Elasticsearch for Apache
Hadoop产品的官方文档中引用安装:

就像其他库一样,elasticsearch-hadoop必须在Spark的类路径中可用。

以及稍后在受支持的Spark
SQL版本中:

elasticsearch-hadoop通过两个不同的jar支持Spark SQL 1.3-1.6版本和Spark SQL
2.0版本:

elasticsearch-spark-1.x-<version>.jar
elasticsearch-hadoop-<version>.jar

elasticsearch-spark-2.0-<version>.jar
支持Spark SQL 2.0

这看起来像是文档的问题(因为它们使用jar文件的两个不同版本),但这确实意味着您必须在Spark应用程序的CLASSPATH上使用正确的jar文件。

然后在同一文档中:

可以在org.elasticsearch.spark.sql软件包下获得Spark SQL支持。

这仅表示(中的

df.write.format('org.elasticsearch.spark.sql')
)格式正确。

在文档的更下方,您甚至可以使用别名

df.write.format("es")
(!)。

我在GitHub上的项目存储库中找到了Apache Spark部分,更具可读性和最新性。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/401389.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号