Kafka数据存储流程和LEO+HW概述(初级入门三)

一、Partition
topic物理上的分组，一个topic可以分为多个partition，每个partition是一个有序的队列
是以文件夹的形式存储在具体Broker本机上

二、 LEO（LogEndOffset）
表示每个partition的log最后一条Message的位置。

三、HW（HighWatermark）
   表示partition各个replicas数据间同步且一致的offset位置，即表示allreplicas已经commit的位置
   HW之前的数据才是Commit后的，对消费者才可见
   ISR集合里面最小leo

四、offset：
   每个partition都由一系列有序的、不可变的消息组成，这些消息被连续的追加到partition中
   partition中的每个消息都有一个连续的序列号叫做offset，用于partition唯一标识一条消息
   可以认为offset是partition中Message的id

五、Segment：每个partition又由多个segment file组成；
   segment file 由2部分组成，分别为index file和data file（log file），
   两个文件是一一对应的，后缀”.index”和”.log”分别表示索引文件和数据文件
   命名规则：partition的第一个segment从0开始，后续每个segment文件名为上一个segment文件最后一条消息的offset+1

六、Kafka高效文件存储设计特点：
   Kafka把topic中一个parition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。
   通过索引信息可以快速定位message
   producer生产数据，要写入到log文件中，写的过程中一直追加到文件末尾，为顺序写，官网数据表明。同样的磁盘，顺序写能到600M/S，而随机写只有100K/S

Kafka数据存储流程和LEO+HW概述(初级入门三)

大数据系统相关栏目本月热门文章