kafka知识点总结_大数据系统

kafka知识点总结

Kafka基本架构图

基本概念以及作用副本同步

概念

如何保证副本数据一致性 kafka存储机制

Partition 文件存储方式如何找到消息

Kafka基本架构图

基本概念以及作用

Producer：消息生产者，向 Kafka 集群发消息的客户端。Consumer：消息消费者，从 Kafka 集群啦取消息的客户端。Consumer Group：消费者组（CG），消费者组内每个消费者负责消费不同分区的数据，提高消费能力。一个分区只能由组内一个消费者消费，消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。Broker：一台 Kafka 机器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic。Topic：可以理解为一个队列，topic 将消息分类，生产者和消费者面向的是同一个 topic。Partition：为了实现扩展性，提高并发能力，一个非常大的 topic 可以分布到多个 broker （即服务器）上，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列。Replica：副本，为实现备份的功能，保证集群中的某个节点发生故障时，该节点上的 partition 数据不丢失，且 Kafka 仍然能够继续工作，Kafka 提供了副本机制，一个 topic 的每个分区都有若干个副本，一个 leader 和若干个 follower。Leader：每个分区多个副本的“主”副本，生产者发送数据的对象，以及消费者消费数据的对象，都是 leader。Follower：每个分区多个副本的“从”副本，实时从 leader 中同步数据，保持和 leader 数据的同步。leader 发生故障时，某个 follower 还会成为新的 leader，涉及选举和同步问题。offset：消费者消费的位置信息，监控数据消费到什么位置，当消费者挂掉再重新恢复的时候，可以从消费位置继续消费，记录某个消费者消费某个topic的偏移量。Zookeeper： Kafka 集群能够正常工作，需要依赖于 zookeeper，zookeeper 帮助 Kafka 存储和管理集群信息，选举，偏移量存储等。副本同步概念

高水位（HW）：一个偏移量限制，为了保证消费数据的一致性，是所有副本中LEO最小值最后偏移量(LEO：log end offset)：表示下一个消息的偏移量已提交的消息：表示已经在ISR副本同步完成的未提交消息：表示还没有在ISR副本同步完成的

如何保证副本数据一致性

其实就是利用了高水位HW，这个是所有同步副本里最小的LEO，也即表示所有副本至少有LEO之前的所有数据，这个数据才是消费者可以看到的，即便是leader挂了，也可以重新选举新leader，同步HW之后数据还是一致的。

kafka存储机制 Partition 文件存储方式

每个分区有自己的存储文件，存储文件是分段的，因为有大小限制，然后每个段都分成2个文件，一个是索引(.index结尾)，一个是数据(.log结尾)，命名根据分段的第一条消息偏移量。

如何找到消息

因为分段名字以及索引和日志的数据都是有序的，虽然可能是稀疏的，但是还是可以用二分查找+向下遍历的方式找到数据。

好了，今天就到这里了，希望对学习理解有帮助，大神看见勿喷，仅为自己的学习理解，能力有限，请多包涵，部分图片来字kafka参考书上，侵删。

kafka知识点总结

大数据系统相关栏目本月热门文章