欢迎大家关注我的公众号,有问题可以及时和我交流。
image.png

关于Filebeat收集XML格式日志推送到Kafka中标签被转义的问题

问题描述

我在公司搭建的有个ELK监控的日志,最近需要解决一些日志收集的问题 。我的日志是XML格式的,并不是传统的JSON格式的,然后我使用的是filebeat进行正则匹配之后收集到kafka中。问题就是出现在收集到kafka中,我日志的标签被转码。
1.我原来的日志内容(截取一部分)

<ProcID>PROC201901231142000960005774</ProcID>

2.使用kafka工具查看日志内容

\u003cProcID\u003ePROC201901231142000960005774\u003c/ProcID\u003e

可以看到关于标签的 “<” 和 “>” 在kafka中被转义了。

错误的解决思路

一开始的时候我认为是filebeat使用正则之后导致的,然后我测试了filebeat直接收集推送到logstash中,然后打印到屏幕进行查看。测试的结果就是跟正则根本没有半毛钱关系。然后我就开始使劲怀疑kafka。我心里想一定是kafka出了问题,然后我就请教公司kafka大神,去QQ找群,去Stack Overflow提问,结果都是无功而返。

偶然的机会

还是跟往长一样,打开微信,看到有公众号推送kafka有关的文章,于是我就试着在文章留言,描述我的问题。作者给我的回复和外国大哥给我的回复是一样的,都是说被转义了,但是没有说解决办法。
在这里插入图片描述
在这里插入图片描述
正是作者的一句话提醒了我“既然能被转义,说明能被转回来,又不是不可逆的”,我再次通过百度试着搜索kafka转义的问题。巧了!碰到了这样一篇文章跟我的问题一模一样。我跟大佬相同的问题

在这里插入图片描述
然后我根据大佬的提示,按照着上述配置了logstash。
在这里插入图片描述
通过了一层logstash推送到ES中解决了问题。
在这里插入图片描述

这里记录一下提问问题的方法

1.百度 Google如果不能够自行解决的话就去问身边的朋友
2.可以试着向外国友人提问
3.如果有成熟的开源社区,最好直接去开源社区进行提问(重点)。

欢迎大家关注我的公众号,有问题可以及时和我交流。
image.png

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐