栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

hudi mor表数据ro和rt表问题 rt更新数据表无法使用count

hudi mor表数据ro和rt表问题 rt更新数据表无法使用count

本人使用canal + kafka + sparkstructedstreaming 将mysql数据同步至hudi,并将hudi与hive集成。
想利用hive查询hudi数据。

hudi 在hive中有两张表:
xxx_ro:历史
xxx_rt:实时

查询ro表发现更新数据未与历史数据合并
查询rt表为实时数据,但是无法使用count()

hudi在 hdfs以 log+parquet格式保存,更新数据存储至log


查看了官网的配置

      .option(DataSourceWriteOptions.ASYNC_COMPACT_ENABLE.key(),"true")
      .option(HoodieCompactionConfig.INLINE_COMPACT_TRIGGER_STRATEGY.key(),"NUM_OR_TIME")
      .option(HoodieCompactionConfig.INLINE_COMPACT_NUM_DELTA_COMMITS.key(), "3")
      .option(HoodieCompactionConfig.INLINE_COMPACT_TIME_DELTA_SECONDS.key(),"60")

尝试一下看看

2022-03-03
昨天试了spark-sql查 rt表 报错


2022-03-03 09:33:45
直接更新时compact

上面配置就都不要了

测试ro表数据 是“实时”更新数据

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/754195.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号