介绍

Kafka是一个分布式系统,由服务器和客户端组成,通过高性能TCP网络协议进行通信。它可以部署在本地和云中的裸机硬件、虚拟机和容器上环境。

服务器:Kafka作为一个或多个服务器的群集运行,这些服务器可以跨越多个数据中心或云区域。其中一些服务器构成了存储层,称为代理。其他服务器运行KafkaConnect以持续导入和导出数据作为事件流,用于将Kafka与现有系统(如关系数据库)集成,以及其他Kafka集群。为了让您实现任务关键型用例,Kafka集群具有高度可扩展性容错:如果其任何服务器发生故障,其他服务器将接管其工作以确保连续操作,不会丢失任何数据。

客户端:它们允许您编写可读、写、并并行、大规模和容错的方式处理事件流,即使在网络的情况下也是如此问题或机器故障。Kafka附带了一些这样的客户端,Kafka提供了数十个客户端社区:客户端可用于Java和Scala,包括更高级别的KafkaStreams库、Go、Python、C/C++和许多其他编程语言以及RESTAPI。

主要概念

生产者和消费者

生产者

Kafka生产者发送数据时会直接与分区领导者(leader) broker进行交互。

Kafka生产者在发送数据到Kafka集群时,会利用Kafka的分区机制来组织消息。以下是详细过程:

  • 元数据请求:Kafka生产者在初始化或定期检查更新时会从Kafka集群中的任意节点获取元数据信息,包括哪些服务器是活动的以及每个主题分区的领导者在哪里。

  • 序列化与分区选择:在发送消息之前,生产者会将消息键和值序列化成字节数组。然后,生产者根据ProducerRecord对象指定的信息来决定消息应该发送到哪个分区。如果指定了分区,则消息会被发送到该分区;如果没有指定分区但提供了键,则会使用键的哈希值与分区数取余的方式来确定分区;如果只存在值而没有键和分区指定,Kafka内部会采用Sticky partition策略随机选择一个分区。

  • 发送消息:Kafka生产者将创建的ProducerRecord对象包装好的消息发送给对应的分区领导者broker。这个过程是异步的,由一个独立线程负责管理批次并将它们发送到相应的broker上。

  • 领导者负责:由于Kafka采用领导者复制机制,生产者只需将数据发送至分区的领导者副本,领导者副本负责处理消息的存储和复制到跟随者副本(follower)。

消费者

Kafka消费者的工作方式是通过向Kafka broker发送“fetch”请求来拉取(pull)数据,不是推送(push)模式。以下是Kafka消费者的工作机制和特点:

  • 拉取数据:消费者主动从broker拉取数据,即采用pull模式。这种方式允许消费者以自己的速度处理数据,避免了因为broker推送消息过快而导致消费者处理不过来的问题。

  • 指定偏移量:在拉取数据时,消费者可以在请求中指定从哪个偏移量开始消费日志。这给了消费者很大的灵活性,它可以选择从当前偏移量开始消费,也可以选择从之前的某个偏移量开始重新消费数据。

  • 分区分配策略:Kafka中的数据被分成多个分区,消费者可以消费多个分区的数据,但每个分区的数据只能被消费者组中的一个消费者消费。Kafka提供了不同的分区分配策略,如Range分配策略、RoundRobin分配策略和Sticky分配策略等。

  • 消费者组:当一个主题的数据量很大时,可以通过消费者组来实现横向扩展。消费者组中的每个消费者可以消费不同分区的数据,从而实现负载均衡。在同一个消费者组中,每个分区只能被一个消费者消费,以避免重复处理数据。

  • 位移提交和存储:消费者在消费数据时会维护一个偏移量(offset),表示它在分区中消费到了哪个位置。这个偏移量需要定期提交给Kafka,以便在服务重启或故障恢复时能够从准确的位置继续消费。

  • 再均衡机制:当消费者组中的消费者数量发生变化时,Kafka会自动进行分区的重新分配,这个过程称为再均衡(rebalance)。再均衡确保了每个分区都有消费者负责,且每个消费者都能公平地分担负载。

  • 拦截器和反序列化:Kafka消费者提供了拦截器(Interceptor)机制,允许开发者在数据处理过程中插入自定义逻辑。此外,消费者还需要对从Kafka接收到的消息进行反序列化,将其转换为应用程序可以理解的数据格式。

  • 消费进度监控:为了确保数据处理的稳定性和可靠性,监控系统通常会跟踪消费者的消费进度,包括当前的偏移量、消费速率等信息。

主题(Topic)与分区(Partition)

,Kafka 通过主题(Topic)来组织消息,每个主题可以看作是一个独立的消息队列。为了提高系统的可伸缩性和性能,Kafka 采用了分区(Partition)机制。

在 Kafka 中,每个主题被分割成多个分区。

这些分区有以下特点和优势:

  • 并行处理:分区允许 Kafka 主题并行地处理数据。不同的分区可以在不同的服务器(Broker)上进行处理,这意味着一个主题可以扩展到多个服务器以容纳更多的数据或处理更高的吞吐量。

  • 分区复制:为了保证高可用性,每个分区可以有多个副本。在这些副本中,会选出一个作为领导者(Leader),而其他的则是跟随者(Follower)。领导者负责处理所有的读写请求,跟随者则同步领导者的数据。如果领导者发生故障,跟随者中的一个会被提升为新的领导者。

  • 负载均衡:分区还允许 Kafka 进行负载均衡。生产者可以将消息均匀地发送到不同的分区,消费者组内的每个消费者可以消费不同分区的数据,从而实现负载的分散。

  • 有序性保证:虽然分区允许并行处理,但在单个分区内,消息是按照它们进入的顺序存储的。这意味着对于单个消费者来说,即使在并行消费的情况下,从单个分区中读取的消息也是有序的。

  • 灵活的消费者偏移量管理:消费者组中的每个消费者维护着自己的偏移量(Offset),这个偏移量标记了它已经消费到了分区中的哪个位置。这使得消费者可以在服务重启或故障恢复时从准确的位置继续消费,而不是从头开始。

  • 扩展性:随着系统需求的增长,可以通过增加服务器数量和合理配置分区数量来水平扩展 Kafka 集群。

Broker 和集群(Cluster)

一个 Kafka Broker 能够处理成千上万的分区和百万量级的消息。

Kafka 的设计允许单个 Broker 具有高效的数据处理能力,这得益于以下几个方面:

  • 顺序磁盘I/O:Kafka 在写消息数据时,会为每个分区创建一个文件,并将数据顺序地追加到该文件对应的磁盘空间中。这种顺序写入的方式充分利用了磁盘的顺序访问性能,相比随机访问要高效得多。

  • 分区和并行处理:Kafka 通过将主题分为多个分区,并在不同的 Broker 上分布这些分区,实现了应用级别的水平扩展。这样,不同的分区可以并行地在不同的 Broker 上进行处理,从而提高了整体的处理能力。

  • 高效的网络通信模型:Kafka 设计了一个高效的网络通信模型来处理它与生产者(Producer)和消费者(Consumer)之间的消息传递问题。这个模型对于保持高性能至关重要。

  • 监控和度量指标:为了确保 Broker 的性能和稳定性,Kafka 提供了一系列的服务端度量指标,用于监控 Broker 的状态。这些指标包括 Kafka 本身的指标和主机层面的指标,有助于及时发现并解决可能出现的问题。

  • 集群的扩缩容能力:Kafka 集群可以通过增删 Broker 来简单地实现整个集群的扩缩容,这使得根据实际需求调整系统性能成为可能。

动手搭建kafka

1.下载压缩包

下载并解压,下载地址

$ tar -xzf kafka_2.13-3.6.1.tgz
$ cd kafka_2.13-3.6.1

2.启动kafka

注意:您的本地环境必须安装 Java 8+。
Apache Kafka 可以使用 ZooKeeper 或 KRaft 启动。要开始使用任一配置,请遵循以下部分之一,但不能同时执行两者。

使用 ZooKeeper 的 Kafka

1. 配置 zookeeper地址

修改config/server.properties文件,修改如下配置:

zookeeper.connect=127.0.0.1:2181
2.添加对外暴漏ip

修改config/server.properties文件,添加以下配置:

# 允许外部端口连接                                            
listeners=PLAINTEXT://0.0.0.0:9092  
# 外部代理地址                                                
advertised.listeners=PLAINTEXT://[本机ip]:9092

运行以下命令启动kafka

$ bin/kafka-server-start.sh config/server.properties

使用 KRaft 的 Kafka

生成集群 UUID

$ KAFKA_CLUSTER_ID="$(bin/kafka-storage.sh random-uuid)"

设置日志目录的格式

$ bin/kafka-storage.sh format -t $KAFKA_CLUSTER_ID -c config/kraft/server.properties

启动 Kafka 服务器

$ bin/kafka-server-start.sh config/kraft/server.properties
Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐