kafka-03架构_大数据系统

kafka-03架构

1. kafka基础架构

Producer ：消费生产者，就是向 kafka broker 发消息的客户端，broker将该消息追加到当前用于追加数据的segment文件中，生产者发送的消息，存储到一个partition中；

Consumer ：消息消费者，向 kafka broker 取消息的客户端，kafka提供了两套consumerAPI：high-level Consumer API(高层抽象)和SimpleConsumer API；

Consumer Group （CG）：消费者组，由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。

Broker ：一台 kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker可以容纳多个 topic【kafka集群包含一个或多个服务器，服务器节点称为broker 】。

Topic ：可以理解为一个队列，是逻辑上的概念，同一个Topic 的消息可以分布在一个或多个节点（Broker）上；一个Topic包含一个或多个Partition；每条消息都属于且仅属于一个Topic； Producer发布数据时，必须指定该消息发布到哪一个Topic；Consumer订阅消息时，也必须指定订阅到那个Topic的消息；

Partition：是物理上的概念，一个非常大的 topic 可以分布到多个 broker（即服务器）上，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列；

一个Partition只分布于一个Broker上（不考虑备份）一个Partition物理上对应一个文件夹一个Partition包含多个Segment(Segment对用户透明)一个Segment对应一个文件，Segment由一个个不可变记录组成记录只会被append到Segment中，不会被单独删除或者修改清除过期日志时，直接删除一个或多个Segment

Replication：副本，为保证集群中的某个节点发生故障时，该节点上的 partition 数据不丢失，且 kafka 仍然能够继续工作，kafka 提供了副本机制，一个 topic 的每个分区都有若干个副本，一个 leader 和若干个 follower。

Leader负责写入和读取数据，Follower只是负责备份的。

leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是 leader。

follower：每个分区多个副本中的“从”，实时从 leader 中同步数据，保持和 leader 数据的同步。leader 发生故障时，某个 follower 会成为新的 follower。

offset: 偏移量可以唯一的识别一条消息，决定读取数据的位置，不会有线程安全的问题，消费者通过偏移量来决定下次读取的消息，消息被消费后，并不能被马上删除，这样多个业务就可以重复使用kafka的消息

2. kafka的工作流程

Kafka 中消息是以 topic 进行分类的，生产者生产消息，消费者消费消息，都是面向 topic
的。

topic 是逻辑上的概念，而 partition 是物理上的概念，每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该 log 文件末端，且每条数据都有自己的 offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个 offset，以便出错恢复时，从上次的位置继续消费。

3. 文件存储机制

由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下，Kafka 采取了分片和索引机制，将每个 partition 分为多个 segment。每个 segment对应两个文件–“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为：topic 名称+分区序号。例如，first 这个 topic 有三个分区，则其对应的文件夹为 first-0,first-1,first-2。

分区下进行日志记录：同时为了避免大日志文件的产生，对日志文件进行分片；超过一定大小重新建立一个LogSegment。LogSegment中主要有.log 日志文件和 .index 偏移量索引文件；日志文件主要记录日志内容，偏移量索引文件，记录偏移量（offSet）和对应偏移量在日志文件中的起始读取点。

# The maximum size of a log segment file. When this size is reached a new log segment will be created.
log.segment.bytes=1073741824

index 和 log 文件以当前 segment 的第一条消息的 offset 命名。下图为 index 文件和 log文件的结构示意图。 index存储的是索引，二分查找法搜索

“.index”文件存储大量的索引信息，“.log”文件存储大量的数据，索引文件中的元
数据指向对应数据文件中 message 的物理偏移地址。

kafka-03架构

大数据系统相关栏目本月热门文章