问题呈现:

flume启动后一直停在sink已经启动。。。
控制台看不到报错信息。。。
hdfs上查看不到数据。。。

解决方法:

检测是否为kafka问题,因为消费的是Kafka中的数据。

1) 使用 kafka-consumer-groups.sh 检测消费情况
2) 不断生成新的数据,发现数据会被 flume 消费( 但没有写入 hdfs )

检测是否为 flume 问题

新建一个简单的 flume 配置文件,让采集本地数据到 hdfs ,这么一来,终于发现问题了(有报错信息了)

2021-07-27 20:51:39,388 ERROR hdfs.HDFSEventSink: process failed
java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V
	at org.apache.hadoop.conf.Configuration.set(Configuration.java:1380)
	at org.apache.hadoop.conf.Configuration.set(Configuration.java:1361)
	at org.apache.hadoop.conf.Configuration.setBoolean(Configuration.java:1703)
	at org.apache.flume.sink.hdfs.BucketWriter.open(BucketWriter.java:221)
	at org.apache.flume.sink.hdfs.BucketWriter.append(BucketWriter.java:572)
	at org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:412)
	at org.apache.flume.sink.DefaultSinkProcessor.process(DefaultSinkProcessor.java:67)
	at org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:145)
	at java.lang.Thread.run(Thread.java:748)

这是 guava 包冲突了,因为 Hadoop 采用的 3.3.0 而 flume 采用的 1.9.0 ,把 hadoop-3.3.0/share/hadoop/common/lib/guava-27.0-jre.jar 覆盖掉 /opt/module/flume-1.9.0-bin/lib/ 下的 guava 包。

至此,问题解决。

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐