栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hudi特性之表格式 (1)

Hudi特性之表格式 (1)

在大数据中扮演重要角色的Hudi,其表格式和查询方式有何特殊之处?他是怎样进行数据的插入更新处理?
首先,Hudi有两种处理数据的表格式:
COW(Copy On Write)
MOR(Merge On Read)


1、COW(Copy On Write)

支持快照查询,增量查询处理数据过程:仅使用专门的列式文件存储数据(如:parquet)。 在写入和更新过程中执行同步合并,简单地更新版本和重写文件。因为每次更新操作都会重写整个文件,存在写放大的问题。
2 、MOR(Merge On Read)

支持快照查询,增量查询,读优化查询使用柱状(如parquet) +基于行(如avro)的文件格式组合存储数据。处理数据过程:每次写数据时会生成一个日志,将每个文件的更新数据存储到日志中,在查询时将日志应用到每个文件 ID 来支持快照查询。因此,这种表类型会平衡读和写放大,以提供接近实时的数据。在读表上进行合并的目的是直接在DFS之上支持接近实时的处理,而不是将数据复制到可能无法处理数据量的系统。

以一次数据的insert和updata为例。我利用hudi在插入一次mor格式的表保存hive和hdfs,修改数据对表进行更新updata,在hadoop的50075端口中浏览文件,可以看到如下图

第一行数据就是生成的log,在进行查询读取时,会将log与数据文件合并读取,提供实时的数据。 3、COW和MOR对比

COWMOR
数据延迟HigherLower
查询延迟LowerHigher
更新成本HigherLower
Parquet文件大小SmallerLarger
写放大HigherLower
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/701049.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号