# Kafka使用日志文件的方式保存生产者发送的消息

# 每一条消息都有一个offset值来表示它在分区中的偏移量,注意这个offset是一个逻辑值,并不是消息实际物理存储地址;它更加类似于数据库表中的主键,主键唯一却定了数据库表中的记录,offset也唯一却定了分区中的一条消息,逻辑图如下:


# 为了提高写入的性能,同一个分区的消息是顺序写入的,这就避免了随机写入带来的性能问题

 

# 当一个分区的副本无论是leader还是follower副本被划分到某一个broker,都需要在在此broker上为此分区建立相应的Log, 而生产者发送到消息会存储到Log中,供消费者拉取后消费

 

# Log是直接对应着一个目录,这个目录是按照<topic_name>_<partition_id>来命名的,Log与分区之间是一一对应的,对应的分区中的全部消息都存储这个目录下的日志文件中

 

# Kafka通过分段的方式将Log分为多个LogSegment,LogSegment是一个逻辑上的概念,一个LogSegment对应着磁盘上一个日志文件和索引文件,其中日志文件用于记录消息,索引文件用于保存消息的索引

 

# 随着消息的不断写入,日志文件大小就达到一个阀值时,就创建新的日志文件和索引文件,继续写入后面的消息和索引信息,日志文件文件名的命名规则:[baseOffset].log,baseOffset是日志文件中第一条消息的offset,如下图所示:


# 为了提高消息的查询效率,每一个日志文件都对应一个索引文件和时间索引文件,索引文件并没有为每一条消息都建立索引而是使用稀疏索引方式为日志文件中部分消息建立了索引。类似于这样:


Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐