栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Kafka数据存储流程和LEO+HW概述(初级入门三)

Kafka数据存储流程和LEO+HW概述(初级入门三)

一、Partition
topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列
是以文件夹的形式存储在具体Broker本机上

二、 LEO(LogEndOffset)
    表示每个partition的log最后一条Message的位置。

三、HW(HighWatermark)
    表示partition各个replicas数据间同步且一致的offset位置,即表示allreplicas已经commit的位置
    HW之前的数据才是Commit后的,对消费者才可见
    ISR集合里面最小leo

 四、offset:
    每个partition都由一系列有序的、不可变的消息组成,这些消息被连续的追加到partition中
    partition中的每个消息都有一个连续的序列号叫做offset,用于partition唯一标识一条消息
    可以认为offset是partition中Message的id

五、Segment:每个partition又由多个segment file组成;
    segment file 由2部分组成,分别为index file和data file(log file),
    两个文件是一一对应的,后缀”.index”和”.log”分别表示索引文件和数据文件
    命名规则:partition的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset+1

六、Kafka高效文件存储设计特点:
    Kafka把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。
    通过索引信息可以快速定位message
    producer生产数据,要写入到log文件中,写的过程中一直追加到文件末尾,为顺序写,官网数据表明。同样的磁盘,顺序写能到600M/S,而随机写只有100K/S

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/674288.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号