数据采集技术

数据收集架构

 

Kafka架构图

集群由zookeeper管理

Kafka的特点:

1. 磁盘存储

2. 高吞吐率(每秒几十万条消息)

3. 分布式架构,能对消息进行分析

4. 将数据并行加载到hadoop分区

 

Flume 架构图

1. agent:就是将数据源的数据发送给collector

2. Collector:将数据源汇总给storage

3. Storage :存储数据

4. Master管理整个集群

 

Flume设计目标

可靠性:就是发生故障自动转移,当发生节点故障了,会传到其他节点,日志数据不会丢失

End-to-end:agent数据,当我们的数据传送成功后,就删除。如果传送是失败了,就重新发送

Store on failure:

Best effort

 

Sqoop 架构图

 

常见日志收集系统对比

 

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐