深入分区

  • Topic至少有一个分区、可以有多个分区。通过创建时的参数--partitions来指定分区数。

  • 消息被添加到分区中时,会有一个偏移量offset来唯一标识一条消息。因此同一个分区内的消息是顺序的,不同分区中的消息顺序无法保证。

  • 下图中展示了该topic有3个分区,每条消息在被添加到分区中时都有唯一的offset

topic的分区

  • topic分区中的消息存储在日志文件中,而且有过期时间,在server.properties文件中配置,默认保存7天。

      log.retention.hours=168
    
  • 分区的设计可以提高kafka的消息吞吐量TPS

    1. 容易水平扩展,只需增加新的broker,建立新的分区,就可以接收同一个topic的消息
    2. 同一个topic的信息会发送到该topic的不同分区,并行处理消息。

分区实例

  • 首先依次启动zookeeper和kafka,并使用下面的命令创建一个有3个分区的topic。

    bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic topic5 --replication-factor 1 --partitions 3
    
  • 启动一个producer,并发送一系列消息

    producer连续发送消息

consumer接收到的消息

可以看到,consumer接收到的消息是不连续的,这正是分区导致的:
producer向3个分区写入消息,consumer从3个分区拉取消息。分区内的消息通过offset保证连续,但分区之间的消息顺序无法保证。

 

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐