初识Kafka——深入理解Kafka核心设计与原理实践读书笔记（1）

Kafka：由LinkedIn公司采用Scala语言开发的一个多分区，多副本，基于ZooKeeper协调的分布式消息系统，现已被捐献给Apache基金会。Kafka的角色：消息系统（消息中间件）、存储系统（提供消息持久化功能）、流式处理平台（提供了流式处理类库）。Kafka体系架构：由若干Producer、若干Broker、若干Consumer、以及一个ZooKeeper集群构成。Producer

昵称不能为——

2066人浏览 · 2022-04-04 15:58:53

昵称不能为—— · 2022-04-04 15:58:53 发布

Kafka：由LinkedIn公司采用Scala语言开发的一个多分区，多副本，基于ZooKeeper协调的分布式消息系统，现已被捐献给Apache基金会。
Kafka的角色：消息系统（消息中间件）、存储系统（提供消息持久化功能）、流式处理平台（提供了流式处理类库）。

Kafka体系架构：由若干Producer、若干Broker、若干Consumer、以及一个ZooKeeper集群构成。
Producer：生产消息并发送至Broker。
Broker：将收到的消息存储到磁盘中。
Consumer：订阅并消费消息。
ZooKeeper：管理集群元数据、控制器选举。

Kafka消息结构：由主题和分区构成。
主题：消息以主题为单位进行归类，可分为多个分区，同一主题下的不同分区包含的消息是不同的。
分区：分区在存储层可看作是一个可追加的日志文件，消息在被追加到分区日志的时候会分配一个特定的偏移量（offset），offset是消息在分区中的唯一标识，也是消息在分区内顺序性的保证。由于offset不跨分区，故Kafka保证的是分区有序而不是主题有序。一个分区有多个副本，以提升容灾能力。
多副本机制（Replica）：一个分区有多个副本，多个副本间存储的是一致（最终一致性）的消息，副本间的关系是一主多从，leader节点负责处理读写请求，follower负责与leader之间的消息同步（存在一定的消息滞后）。副本处于不同的broker中，当leader故障时，可从follower中选举出新的leader来对外提供服务。

Kakfa的消费模式：拉（pull）模式，Consumer保存消费的具体位置，当消费者宕机后恢复上线时可以根据之前保存的offset重新拉取消息，以防止消息丢失。

副本分类：
AR(Assigned Replicas)：分区中的所有副本称为AR。
ISR(In-Sync Replicas)：与leader保持一定程度同步的副本称为ISR。
OSR(Out-of-Sync Replicas)：与leader副本滞后太多的副本称为，AR=ISR+OSR，正常情况下OSR为空。
follower的滞后状态是由leader来维护的，即由leader来判定每个follower是属于ISR还是OSR。
只有ISR中的副本可在leader节点故障时被选为新的leader。

HW(High Watermark)：高水位，标识一个特定的消息偏移量，消费者只能拉取到这个offset之前的消息。
LEO(Log End Offset)：标识当前日志文件中下一条待写入消息的offset。分区ISR集合中的每个副本都会维护自身的LEO，这些LEO中的最小值即为该分区的HW，Consumer只能消费HW之前的消息。
Kafka的复制机制：既不是完全的同步复制（数据从leader复制到所有follower才成功），也不是单纯的异步复制（数据写入leader就成功）。

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...