栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

2021-10-22 pyspark读取kudu表

2021-10-22 pyspark读取kudu表

pyspark 读取kudu表 背景:

有一个pyspark程序需要读取kudu表的数据。数据存储在kudu中,使用impala的话也不好读取kudu表中的数据—有一个kerberos认证的过程,阻碍了数据的读取。另外当前版本的hive是没有做针对kudu相关的配置。所以也无法使用hive去读取kudu表的数据。

解决办法

参考: kudu的官方文档

针对spark读取kudu的方式:
引入kudu-spark2_2.11,jar

  • scala 可以通过maven的pom配置映入这个依赖包
  • pyspark可以通过提交任务的时候在提交脚本里面使用–jars可以使用

scala的方式:

val df = spark.read
  .options(Map("kudu.master" -> "kudu.master:7051", "kudu.table" -> "kudu_table"))
  .format("kudu").load

pyspark这么写:

def read_kudu_table(kudu_master,table_name):
    return spark.read.format("org.apache.kudu.spark.kudu")
    .option("kudu.table",table_name)
    .option("kudu.master",kudu_master)
    .load()

这样就可以使用pyspark读取kudu表的数据了。

总结

有需要的同学们可以拿去参考一下,有什么更好的建议可以在下方留言哦,谢谢大佬们~

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/350492.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号