最近线上偶尔爆出kafka消费延迟,但是系统的数据量并不大,为什么会延迟呢?
具体分析如下。

基本思路
1.查看机器中数据积压情况,是否是因为数据量过大导致的消费延迟。
2.统计数据发送kafka成功到数据消费出来(还未做业务处理)的耗时。
3.统计数据消费出来并完成业务处理的耗时。

一、查看kafka机器的topic在每个分区的数据分配情况

在这里插入图片描述
可以看出该group中有一个topic,该topic有6个partition,消费者分布在两台机器上(两个ip),每台机器有三个消费者。
重点关注每个partition的日志积压情况(查看LAG参数):
partition-3中有0条数据积压
partition-1中有1条数据积压
partition-2中有3条数据积压
partition-0中有0条数据积压
partition-4中有0条数据积压
partition-5中有0条数据积压
可以看出数据积压不严重。不是数据量大导致的延迟

二、统计数据发送kafka成功到数据消费出来(还未做业务处理)的耗时

经过日志统计分析,基本是毫秒级别的耗时。所以不是该问题导致的延迟。

三、统计数据消费出来并完成业务处理的耗时

经过日志统计分析,基本是毫秒级别的耗时。但是偶尔出现20分钟的处理耗时。所以,可以肯定延迟是由于处理消费的数据时部分操作导致了。
找到这部分日志,发现是由于业务处理中,有时需要调用一个外部的接口,结果这个接口的地址不通,在http调用时未设置超时,导致服务卡在这里等待20分钟后才超时,从而导致部分后续消费的延迟。

四、结果处理

最终,将http请求超时设置为15s后就解决了这个问题。

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐