赶紧收藏！2024 年最常见 20道 Kafka面试题（二）

1、Kafka的设计架构是什么？2、Kafka分区的目的是什么？

weixin_42922481

1172人浏览 · 2024-06-02 21:58:48

weixin_42922481 · 2024-06-02 21:58:48 发布

上一篇地址：赶紧收藏！2024 年最常见 20道 Kafka面试题（一）-CSDN博客

三、Kafka的设计架构是什么？

Kafka的设计架构是分布式和可扩展的，旨在处理高吞吐量的数据流。以下是Kafka设计架构的关键组成部分及其功能：

Producer（生产者）：
- 生产者是向Kafka集群发送消息的客户端。
- 它们负责创建消息并将其发送到Kafka的Broker。
Consumer（消费者）：
- 消费者是订阅并从Kafka集群接收消息的客户端。
- 消费者可以是个人或服务，它们从特定的Topic读取消息。
Topic（主题）：
- 主题是消息的分类名称，类似于数据库中的表。
- 生产者将消息发送到特定的Topic，消费者从Topic中读取消息。
Partition（分区）：
- 为了能够横向扩展，一个Topic可以被分割成多个分区。
- 每个分区都是一个有序的、不可变的消息序列。
- 分区可以分布在不同的Broker上，以实现负载均衡和并行处理。
Broker（代理服务器）：
- Kafka集群由多个Broker组成，每个Broker是一个独立的Kafka服务器。
- Broker负责维护数据，并处理来自生产者的消息发送请求和来自消费者的消息读取请求。
Consumer Group（消费者组）：
- 消费者组是一组消费者，它们共同订阅一个Topic。
- 消费者组内的消费者可以并行地消费消息，每个消息只被组内的一个消费者处理。
Replica（副本）：
- 为了提高数据的可靠性，每个分区都有多个副本。
- 副本分为Leader和Follower，Leader负责处理所有的读写请求，Follower负责复制Leader的数据。
Leader Election（领导者选举）：
- 当一个分区的Leader失败时，Kafka会通过Controller进行领导者选举，从Follower中选举出新的Leader。
Controller：
- Controller负责管理整个集群的分区和副本的状态，包括领导者选举和故障转移。
ZooKeeper：
- Kafka使用ZooKeeper来进行集群协调，如Broker和消费者组的注册、Controller选举等。
Offset（偏移量）：
- Offset是一个唯一的标识符，用于追踪消费者在分区中读取消息的位置。
High Watermark（高水位标记）：
- 高水位标记是一个机制，用于确保消费者只能读取已经被所有同步副本确认的消息。
Log（日志）：
- Kafka将每个分区的消息存储在称为日志的文件中，这些日志是有序的。
Segment（日志分段）：
- 日志文件被进一步分割成多个Segment，每个Segment有自己的索引文件，以提高查找效率。

Kafka的这种设计架构提供了高吞吐量、可扩展性、持久性、可靠性和容错性，使其成为处理大规模数据流的理想平台。

四、Kafka分区的目的是什么？

Kafka分区的目的主要是为了提高系统的吞吐量、可扩展性和可靠性。以下是分区带来的几个关键好处：

提高并发度：
- 在Kafka中，一个Topic可以被分割成多个分区，每个分区在物理上对应一个日志。
- 多个消费者可以并行地从不同的分区中读取消息，这样可以显著提高系统的并发处理能力。
实现负载均衡：
- 分区允许Kafka集群在多个Broker之间分配数据和负载。
- 当集群扩展或Topic的流量增加时，可以通过增加分区数量来分散负载。
支持更大的数据集：
- 通过分区，Kafka可以处理比单个Broker能够处理的更大的数据集。
- 每个分区可以存储固定大小的数据，而整个Topic的数据量可以随着分区数量的增加而增加。
提高数据局部性：
- 分区可以提高数据的局部性，使得消费者可以更靠近数据存储的位置进行读取，减少网络延迟。
容错性和数据复制：
- Kafka中的每个分区都有多个副本（Replica），这些副本分布在不同的Broker上。
- 如果一个Broker失败，其他Broker上的副本可以继续提供服务，从而提高了系统的容错性。
顺序保证：
- 在单个分区内部，消息是有序的。这对于需要保证消息顺序的应用程序非常重要。
提高吞吐量：
- 分区允许Kafka并行处理消息，因为每个分区可以独立地被生产者写入和消费者读取。
支持更复杂的数据处理模式：
- 分区使得Kafka可以支持更复杂的数据处理模式，如基于分区的并行处理和聚合。
简化消费者扩展：
- 当需要增加更多的消费者来提高处理能力时，可以通过简单地增加消费者组的数量来实现。
优化存储管理：
- 分区使得Kafka可以更容易地管理存储，例如，通过日志滚动（log rolling）来管理每个分区的日志文件。

通过这些分区机制，Kafka能够构建一个既快速又可靠的消息传递系统，适用于需要高吞吐量、可扩展性和容错性的各种应用场景。

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...