栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

数据湖之Hudi(1):Hudi介绍

数据湖之Hudi(1):Hudi介绍

目录

0. 相关文章链接

1. 什么是Hudi

2. Hudi在大数据中的位置

3. Hudi的特性

4. Hudi各版本发布时间


0. 相关文章链接

大数据基础知识点 文章汇总

1. 什么是Hudi

        Apache Hudi(发音“hoodie”)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表,事务,高效upserts /删除,高级索引,流式摄取服务,数据群集/压缩优化以及并发,同时保持数据以开源文件格式保留。

        Apache Hudi不仅用于流媒体工作负载,还允许创建有效的增量批量流水线。包括 Uber, Amazon, ByteDance, Robinhood等以及更多的公司都在使用Hudi改造他们的生产数据湖泊。

        Apache Hudi可以轻松使用在任何云存储平台上。Hudi的高级性能优化,使用任何流行的查询引擎进行分析工作负载,包括Apache Spark,Flink,Presto,Trino,Hive等。

2. Hudi在大数据中的位置

Hudi将流处理引入大数据, 提供新鲜数据,同时比传统批处理效率高一个数据量级。

3. Hudi的特性
  1. 快速upsert,可插入索引
  2. 以原子方式操作数据并具有回滚功能
  3. 写入器之和查询之间的快照隔离
  4. savepoint用户数据恢复的保存点
  5. 管理文件大小,使用统计数据布局
  6. 异步压缩行列数据
  7. 具有时间线来追踪元数据血统
  8. 通过聚类优化数据集

4. Hudi各版本发布时间

github官网地址:Tags · apache/hudi · GitHub

Hudi各历史版本下载地址和特性说明:Download | Apache Hudi 


注:Hudi系列博文为通过对Hudi官网学习记录所写,其中有加入个人理解,如有不足,请各位读者谅解☺☺☺

注:其他相关文章链接由此进(包括Hudi在内的各大数据相关博文) -> 大数据基础知识点 文章汇总


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/743327.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号