实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Hudi特性之表格式 (1)

大数据系统更新时间：2026-05-21 17:29:11 发布时间：1592天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

在大数据中扮演重要角色的Hudi，其表格式和查询方式有何特殊之处？他是怎样进行数据的插入更新处理？
首先，Hudi有两种处理数据的表格式：
COW(Copy On Write)
MOR(Merge On Read)

1、COW(Copy On Write)

支持快照查询，增量查询处理数据过程：仅使用专门的列式文件存储数据（如：parquet）。在写入和更新过程中执行同步合并，简单地更新版本和重写文件。因为每次更新操作都会重写整个文件，存在写放大的问题。
2 、MOR(Merge On Read)

支持快照查询，增量查询，读优化查询使用柱状(如parquet) +基于行(如avro)的文件格式组合存储数据。处理数据过程：每次写数据时会生成一个日志，将每个文件的更新数据存储到日志中，在查询时将日志应用到每个文件 ID 来支持快照查询。因此，这种表类型会平衡读和写放大，以提供接近实时的数据。在读表上进行合并的目的是直接在DFS之上支持接近实时的处理，而不是将数据复制到可能无法处理数据量的系统。

以一次数据的insert和updata为例。我利用hudi在插入一次mor格式的表保存hive和hdfs，修改数据对表进行更新updata，在hadoop的50075端口中浏览文件，可以看到如下图

第一行数据就是生成的log,在进行查询读取时，会将log与数据文件合并读取，提供实时的数据。 3、COW和MOR对比

	COW	MOR
数据延迟	Higher	Lower
查询延迟	Lower	Higher
更新成本	Higher	Lower
Parquet文件大小	Smaller	Larger
写放大	Higher	Lower

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/701049.html

上一篇 12306爬虫抢票软件代码

下一篇 Hadoop（三）：HDFS

大数据系统相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号