搞容器并且想做数据处理和分析的同学有福了,这里有一个基于Spark的项目,可以让我们不写spark代码,用最简单的配置,迅速跑起来流式streaming或离线处理spark程序,大家可以玩一玩。它有丰富的数据输入,输出插件,比如kafka, elasticsearch, mongodb, mysql, hdfs, hive,clickhouse,还可以直接用sql做数据处理。如果觉得功能不够还可以开发自己的插件,挺方便的。

项目地址:https://github.com/InterestingLab/waterdrop

 

这里有一个基于Spark的项目,可以让我们不写spark代码,用最简单的配置,迅速跑起来流式streaming或离线处理spark程序,大家可以玩一玩。它有丰富的数据输入,输出插件,比如kafka, elasticsearch, mongodb, mysql, hdfs, hive,clickhouse,还可以直接用sql做数据处理。如果觉得功能不够还可以开发自己的插件,挺方便的。目前有微博,新浪,永辉超市等多家公司在线上使用。
项目地址:https://github.com/InterestingLab/waterdrop
文档地址:https://interestinglab.github.io/waterdrop/

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐