flume + Kafka采集数据超简单

说到标题，这只是实时架构中的一小部分内容。下载最新版本flume:apache-flume-1.6.0-bin.tar.gz 解压缩，修改conf/flume-conf.properties 名字可以随便写。我目前实现的是从目录中读取数据写到Kafka中，原理的东东网上一大堆，只接上代码吧：a1.sources = r1a1.sinks = k1a1.channels = c1

三棱球

5555人浏览 · 2015-08-12 14:27:23

三棱球 · 2015-08-12 14:27:23 发布

说到标题，这只是实时架构中的一小部分内容。

下载最新版本flume:apache-flume-1.6.0-bin.tar.gz

解压缩，修改conf/flume-conf.properties 名字可以随便写。

我目前实现的是从目录中读取数据写到Kafka中，原理的东东网上一大堆，只接上代码吧：

a1.sources = r1
a1.sinks = k1
a1.channels = c1

a1.sources.r1.type = spooldir
a1.sources.r1.channels = c1
a1.sources.r1.spoolDir = /data/pv/20150812/
a1.sources.r1.fileHeader = true

a1.channels = c1
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 10000
a1.channels.c1.byteCapacityBufferPercentage = 20
a1.channels.c1.byteCapacity = 800000

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.topic = testflume
a1.sinks.k1.brokerList = xxxx:9092,xxxx:9092,xxxx:9092
a1.sinks.k1.requiredAcks = 1
a1.sinks.k1.batchSize = 20
a1.sinks.k1.channel = c1

启动flume:

./bin/flume-ng agent -n a1 -c conf -f conf/flume-conf.properties

到Kafka里面去查询数据：

./bin/kafka-console-consumer.sh  --zookeeper xxxx:2181/kafka --topic testflume

可以看到数据源源不断的加到Kafka里面了。

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...