kafka一直重复消费数据

告警数量在一次激增后，kafka消费数据异常，一直在不停的重复消费告警数据。经排查为位移自动提交导致：自动提交这种方式让消费者来管理位移，应用本身不需要显式操作。当我们将enable.auto.commit设置为true，那么消费者会在poll方法调用后每隔5秒（由auto.commit.interval.ms指定）提交一次位移。和很多其他操作一样，自动提交也是由poll()方法...

wo1769815

3347人浏览 · 2019-10-28 14:45:14

wo1769815 · 2019-10-28 14:45:14 发布

告警数量在一次激增后，kafka消费数据异常，一直在不停的重复消费告警数据。

经排查为位移自动提交导致：

自动提交

这种方式让消费者来管理位移，应用本身不需要显式操作。当我们将enable.auto.commit设置为true，那么消费者会在poll方法调用后每隔5秒（由auto.commit.interval.ms指定）提交一次位移。和很多其他操作一样，自动提交也是由poll()方法来驱动的；在调用poll()时，消费者判断是否到达提交时间，如果是则提交上一次poll返回的最大位移。

需要注意到，这种方式可能会导致消息重复消费。

假如，某个消费者poll消息后，应用正在处理消息，在3秒后Kafka进行了重平衡，那么由于没有更新位移导致重平衡后这部分消息重复消费。

poll（10）：即在10ms中内拉去的数据返回到消费者端。

//10ms可以读取到大量数据，无法在auto.commit.interval.ms配置的时间内完成处理。

关闭自动提交，采用主动提交后恢复正常，建议采用主动提交方式，可以最大程度避免数据重复消费。

提交当前位移

为了减少消息重复消费或者避免消息丢失，很多应用选择自己主动提交位移。设置auto.commit.offset为false，那么应用需要自己通过调用commitSync()来主动提交位移，该方法会提交poll返回的最后位移。

为了避免消息丢失，我们应当在完成业务逻辑后才提交位移。而如果在处理消息时发生了重平衡，那么只有当前poll的消息会重复消费。下面是一个自动提交的代码样例：

while (true) {
ConsumerRecords<String, String> records = consumer.poll(100);
for (ConsumerRecord<String, String> record : records)
{
System.out.printf("topic = %s, partition = %s, offset = %d, customer = %s, country = %s\n", record.topic(), record.partition(), record.offset(), record.key(), record.value());
}

try {
consumer.commitSync();
} catch (CommitFailedException e) {
log.error("commit failed", e)
}
}

上面代码poll消息，并进行简单的打印（在实际中有更多的处理），最后完成处理后进行了位移提交。