1 Exactly Once语义

将服务器的ACK设置为-1,可以保证Procedure到broker不会丢失数据即At Least Once;相对的,服务器级别设置为0,可以保证生产者发送消息只会发一次,即At Most Once语义
但是,一些非常重要的消息,如交易数据,下游消费者要求消息不重不漏,即Exactly Once,精准一次,在0.11版本之前,kafka是无能为力的,只能通过设置ACK=-1,然后业务消费者自己去重。
0.11版本之后,kafka引入了幂等性概念,procedure无论向broker发送多少次消息,broker只会持久化一条:

At Least Once + 幂等性 = Exactly Once

要启用幂等性,只需要将procedure参数中的enable.idempotence设置为true即可,kafka的幂等性实现其实就是将原来在下游做的去重放在了数据上游。开启幂等性的procedure在初始化的时候会分配一个PID,发往同一个partition的消息会带一个Sequence Number,而broker端会对<PID, Partition, SeqNumber>做缓存,当相同主键消息提交时,broker只会持久化一条。

2 kafka事务

通过设置enable.idempotence参数来实现精准一次投递还有个问题
由于消息是根据PID来做幂等的,如果Procedure发送完消息还没有收到broker的ACK挂掉了,重新建立连接的时候会分配一个新的PID,这个时候消息重发在broker端做不了去重,因为PID已经变了。
为了实现跨会话级别的精准一次投递,kafka引入了事务,一批消息,要么全部成功,要么全部失败。

2.1 生产者事务

生产者事务引入了一个全局唯一的TransactionId,将Procedure获得的PID和TransactionID绑定,这样Procedure重启后就可以获得当前正在进行事务的PID。
为了管理Transaction,Kafka引入了新组件Transaction Coordinator。Procedure就是和Transaction Coordinator交互获得TransactionID对应的任务状态。Transaction Coordinator还负责将事务写入kafka内部的一个topic,这样即使整个服务重启,由于事务状态得到保存,正在进行的事务状态可以得到回复,从而继续进行
 

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐