CDH集成Kafka,两种方式:离线、在线

1.离线
先下载相应版本的kafka http://archive.cloudera.com/kafka/parcels/
然后放置相应目录,如下图:
这里写图片描述
然后直接添加组件即可

2.在线
这里写图片描述
这里写图片描述
配置相应的kafka地址 http://archive.cloudera.com/kafka/parcels/latest/
CDH会自动选择相应的kafka版本,然后保存设置

这里写图片描述
然后选择下载、分配、激活、添加组件即可!

注意:
由于1.6的spark streaming是基于kafka-0.8.2编译的,虽然官网建议kafka-0.8及其以上,但kafka-0.9在更新zk的offset的api,完全不兼容kafka-0.8的api,所以说用高版本的kafak还是有一些坑要踩的
还是需要根据自己公司情况,自行选择kafka版本

Kafka: Spark Streaming 1.6.1 is compatible with Kafka 0.8.2.1.
Flume: Spark Streaming 1.6.1 is compatible with Flume 1.6.0.

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐