Spark Streaming kafka 实现数据零丢失的几种方式

Definitions问题开始之前先解释下流处理中的一些概念：At most once - 每条数据最多被处理一次（0次或1次）At least once - 每条数据最少被处理一次 (1次或更多)Exactly once - 每条数据只会被处理一次（没有数据会丢失，并且没有数据会被多次处理）high level API如果不做容错，将会带来数据丢失因为receiver一直在接收数据，在其没

breeze_lsw

6154人浏览 · 2016-04-12 14:31:40

breeze_lsw · 2016-04-12 14:31:40 发布

在使用spark streaming消费kafka数据时，程序异常中断下发现会有数据丢失的情况。

下文将说明如何避免这种情况。

Definitions

问题开始之前先解释下流处理中的一些概念：

At most once - 每条数据最多被处理一次（0次或1次）
At least once - 每条数据最少被处理一次 (1次或更多)
Exactly once - 每条数据只会被处理一次（没有数据会丢失，并且没有数据会被多次处理）

1.High Level API

如果不做容错，将会带来数据丢失

因为receiver一直在接收数据，在其没有处理的时候（已通知zk数据接收到），executor突然挂掉(或是driver挂掉通知executor关闭)，缓存在其中的数据就会丢失。

因为这个问题，Spark1.2开始加入了WAL（Write ahead log）

开启 WAL,将receiver获取数据的存储级别修改为StorageLevel.MEMORY_AND_DISK_SER

val conf = new SparkConf()
conf.set("spark.streaming.receiver.writeAheadLog.enable","true")
val sc= new SparkContext(conf)
val ssc = new StreamingContext(sc,Seconds(5))

ssc.checkpoint("walDir")    
val lines = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicMap, StorageLevel.MEMORY_AND_DISK_SER).map(_._2)

开启WAL后，依旧存在数据丢失问题

即使按官方说的设置了WAL，依旧会有数据丢失，这是为什么？

因为在任务中断时receiver也被强行终止了，将会造成数据丢失，提示如下：

ERROR ReceiverTracker: Deregistered receiver for stream 0: Stopped by driver
WARN BlockGenerator: Cannot stop BlockGenerator as its not in the Active state [state = StoppedAll]
WARN BatchedWriteAheadLog: BatchedWriteAheadLog Writer queue interrupted.

在Streaming程序的最后添加代码，只有在确认所有receiver都关闭的情况下才终止程序。

sys.addShutdownHook({
  ssc.stop(true,true)
})

调用的方法为：

def stop(stopSparkContext: Boolean, stopGracefully: Boolean): Unit

WAL带来的问题

WAL实现的是At-least-once语义。

如果在写入到外部存储的数据还没有将offset更新到zookeeper就挂掉，这些数据将会被反复消费。

同时，降低了程序的吞吐量。

2.Kafka Direct API

Kafka direct API 的运行方式，将不再使用receiver来读取数据，也不用使用WAL机制。
同时保证了exactly-once语义，不会在WAL中消费重复数据。

不过需要自己完成将offset写入zk的过程，在官方文档中都有相应介绍。

例如如下的调用方式：

messages.foreachRDD(rdd=>{
    val message = rdd.map(_._2)
    //对数据进行一些操作
     message.map(method)
    //更新zk上的offset (自己实现)
    updateZKOffsets(rdd)
})

两种方式的具体数据处理流程可以参考该文章：
http://getindata.com/blog/post/recent-evolution-of-zero-data-loss-guarantee-in-spark-streaming-with-kafka/

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...