快速理解SAMZA, streaming on kafka

samza是一个分布式的流式数据处理框架（streaming processing），它是基于Kafka消息队列来实现类实时的流式数据处理的。(准确的说，samza是通过模块化的形式来使用kafka的，因此可以构架在其他消息队列框架上，但出发点和默认实现是基于kafka)

彩色蚂蚁

15129人浏览 · 2013-09-27 10:10:41

彩色蚂蚁 · 2013-09-27 10:10:41 发布

作者：刘旭晖 Raymond 转载请注明出处

Email：colorant at 163.com

BLOG：http://blog.csdn.net/colorant/

== 是什么 ==

要了解Samza，最好先了解Kafka : http://blog.csdn.net/colorant/article/details/12081909

== 如何实现 ==

作为一个分布式的消息队列系统，kafka已经实现了流式处理框架底层的许多核心基础架构，把消息串联流动起来就是Streaming了。但是要构建一个可用的流式数据处理框架，还是有许多事情要做。例如生产者和消费者进程的管理，作业调度和容错处理，辅助工具和监控管理手段，更友好方便的用户接口等等，本质上说，Samza是在消息队列系统上的更高层的抽象，是一种应用流式处理框架在消息队列系统上的一种应用模式的实现。

核心思想

Samza的一个job的基本处理流程是一个用户任务从一个或多个输入流中读取数据，再输出到一个或多个输出流中，具体映射到kafka上就是从一个或多个topic读入数据，再写出到另一个或多个topic中去。多个job串联起来就完成了流式的数据处理流程。

这种模式其实有点像MapReduce的过程，stream输入部分由kafka的partition决定了分区和task数目，类似于一个Map过程，输出时由用户task指定topic和分区（或者框架自动由Key决定分区），这相当于一次shuffle的过程，下一个job读取新的stream时，可以认为是一个reduce，也可以认为是下一个map过程的开始。

不同之处在于job之间的串联无需等待上一个job的结束，类实时的消息分发机制决定了整个串联的job是连续不间断的，亦即流式的。

调度

Samza使用Yarn进行资源分配和任务调度（调度模块同样是可以替换的）

Samza AM负责job调度，Task runner 负责用户task的运行，依靠kafka和YARN的帮助，samza得以实现其分布式 / 容错性 / 可扩展 / 持久性等方面的特性。

kafka相关

由于samza默认实现是基于kafka的，由此kafka的系统设计也给samza带来了一些其它流式处理系统框架所没有或难以实现的特性。比如kafka的message的Pull模式和持久化的设计带来的Buffer缓冲空间，使得每个samza的job可以无需要求实时完成数据处理，加上task的串联是通过对相关消息的订阅来实现的，也就是说串联的task之间可以独立的运行/停止，更不容易发生阻塞在一个处理节点上等问题，相互进度也无需保持严格一致，应用模式上更加灵活，比如可以串联批量处理任务等。

状态管理

流式处理框架通常需要处理的一个问题就是状态管理，由于数据是连续流动的，本身并不提供任何历史状态信息，在需要依靠历史数据完成相关处理的应用场合（比如窗口类的数据应用，Join类操作等等），就需要一个机制来获取历史数据，samza提供了一个内建per task的Key-valuebased的数据库（基于LevelDB，运行在JVM外部，延续kafka减少JVM内部内存使用的原则）来存储历史数据，同时也可以通过向特定topic写message的方式来log本地数据。

不采用外部数据库来存储的原因，一是考虑外部数据库的吞吐率，二是为了减少并发操作带来的复杂性，再有就是在任务失败重起时很难回滚数据。

== 小结 ==

总体来说，Samza基本上就是一个使用Yarn和kafka的流式数据处理应用程序框架，自身额外提供了本地数据库保存状态信息，代码量并不大（数千行代码），本质上是为了更加方便的使用kafka来处理数据。

== Links ==

http://samza.incubator.apache.org/

https://github.com/apache/incubator-samza

https://github.com/linkedin/hello-samza

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...