日志存储介绍

# Kafka使用日志文件的方式保存生产者发送的消息# 每一条消息都有一个offset值来表示它在分区中的偏移量，注意这个offset是一个逻辑值，并不是消息实际物理存储地址；它更加类似于数据库表中的主键，主键唯一却定了数据库表中的记录，offset也唯一却定了分区中的一条消息，逻辑图如下：

莫言静好、

1819人浏览 · 2017-05-31 16:23:42

莫言静好、 · 2017-05-31 16:23:42 发布

# Kafka使用日志文件的方式保存生产者发送的消息

# 每一条消息都有一个offset值来表示它在分区中的偏移量，注意这个offset是一个逻辑值，并不是消息实际物理存储地址；它更加类似于数据库表中的主键，主键唯一却定了数据库表中的记录，offset也唯一却定了分区中的一条消息，逻辑图如下：

# 为了提高写入的性能，同一个分区的消息是顺序写入的，这就避免了随机写入带来的性能问题

# 当一个分区的副本无论是leader还是follower副本被划分到某一个broker,都需要在在此broker上为此分区建立相应的Log, 而生产者发送到消息会存储到Log中，供消费者拉取后消费

# Log是直接对应着一个目录，这个目录是按照<topic_name>_<partition_id>来命名的，Log与分区之间是一一对应的，对应的分区中的全部消息都存储这个目录下的日志文件中

# Kafka通过分段的方式将Log分为多个LogSegment，LogSegment是一个逻辑上的概念，一个LogSegment对应着磁盘上一个日志文件和索引文件，其中日志文件用于记录消息，索引文件用于保存消息的索引

# 随着消息的不断写入，日志文件大小就达到一个阀值时，就创建新的日志文件和索引文件，继续写入后面的消息和索引信息，日志文件文件名的命名规则：[baseOffset].log,baseOffset是日志文件中第一条消息的offset,如下图所示：

# 为了提高消息的查询效率，每一个日志文件都对应一个索引文件和时间索引文件，索引文件并没有为每一条消息都建立索引而是使用稀疏索引方式为日志文件中部分消息建立了索引。类似于这样：

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...