一文搞懂Flink State如何实战。ValueState实现最大状态值计算

一、什么是state流式计算场景，简单的说就说来一条数据就处理一条数据，对数据进行实时处理。这个时候就会自然而言的有一类需求，我的业务逻辑依赖之前我已经输入的数据。举一个场景就是Flink程序接收Kafka传输过来的数字，例如1到100的随机数。业务需求是输出收到的最大数字。比如按顺序收到的是0，10，2，3，4，5，应该输出的最大数是10。显然在这个处理过程中，需要一种机制来记录前面收到的信息。

大锤爱编程

2148人浏览 · 2021-06-27 23:12:57

大锤爱编程 · 2021-06-27 23:12:57 发布

一、什么是state

流式计算场景，简单的说就说来一条数据就处理一条数据，对数据进行实时处理。这个时候就会自然而言的有一类需求，我的业务逻辑依赖之前我已经输入的数据。

举一个场景就是Flink程序接收Kafka传输过来的数字，例如1到100的随机数。业务需求是输出收到的最大数字。比如按顺序收到的是0，10，2，3，4，5，应该输出的最大数是10。显然在这个处理过程中，需要一种机制来记录前面收到的信息。这种机制就是Flink里面的state,记录前面输入的数据。

二、Flink中的state

2.1 Flink State基本概念

Flink支持状态流处理的分布式计算系统。从分布情况来讲，Flink Jobs是由operator组成，每一个operator的执行在物理上都会被几个并行的operator实例。从Flink的设计理念出发，Flink并行Operator实例是一个可以集群上单独运行的实例。出于避免不必要数据传输的理念，所有的state数据都是保留在本地机器上。

在Flink中，State主要有两种基本类型：KeyedState 和 Operator State。因常用KeyedState，故只对keyedState进行详细介绍。

2.2 Flink keyedState基本编程模型

（这部分内容出自对官方文档的理解和学习，如有疏漏之处，请多多指教。）

Keyed State顾名思义就是被key过的状态，这里其实就是大数据编程中常见key的概念，也就是使用某个属性对全体数据进行分区，比如 reduce by key，Group By key，这里就是根据key对状态进行计算。

在Flink中，State有两种形式，一种是Flink自身提供的，另外一种是自己编码实现的。Flink自身提供的state，有很多自动机制，就是任务并行度增加时，state的状态也可以分发。自己编码的State，那些自动机制就需要自己编码实现。Flink官方文档优先推荐使用Managed State。下面这些State我自己的理解（https://ci.apache.org/projects/flink/flink-docs-release-1.3/dev/stream/state.html#keyed-state）：

ValueState: 记录单个值的
ListState: 列表值，同类型的可以记录一串串
ReducingState: 聚合相加的算子
FoldingState: 支持聚合函数
MapState: 存储k,v类型的

2.3 Flink State编程套路

Flink State编程，我的理解是1、声明一个状态变量 2、通过上下文获得一个状态变量 3、对状态变量进行取值，赋值的操作。下面以一个RichFlatMapFunction为例，来介绍State的使用。这里需要注意的是：首先是State的存取，需要使用RuntimeContext来读取，所以只能在RichFunction中使用。其次是State的存储方式是可以选择，再就是keyed State的值是和key绑定的。

下面就是一个带有state的RichFlatMapFunction的实现。（如果还不能跑起来，评论区见）

# 输入输出是（Long,Long）
class CountWindowAverage extends RichFlatMapFunction[(Long, Long), (Long, Long)] {

# 声明State  
private var sum: ValueState[(Long, Long)] = _

  override def flatMap(input: (Long, Long), out: Collector[(Long, Long)]): Unit = {

    // 读取State值
    val tmpCurrentSum = sum.value

    // State初始化
    val currentSum = if (tmpCurrentSum != null) {
      tmpCurrentSum
    } else {
      (0L, 0L)
    }

    // 获得当前和
    val newSum = (currentSum._1 + 1, currentSum._2 + input._2)

    // 更新Stata值
    sum.update(newSum)

    // 输出State，并将State进行清空
    if (newSum._1 >= 2) {
      out.collect((input._1, newSum._2 / newSum._1))
      sum.clear()
    }
  }

  override def open(parameters: Configuration): Unit = {
    sum = getRuntimeContext.getState(
      new ValueStateDescriptor[(Long, Long)]("average", createTypeInformation[(Long, Long)])
    )
  }
}


object ExampleCountWindowAverage extends App {
  val env = StreamExecutionEnvironment.getExecutionEnvironment

  env.fromCollection(List(
    (1L, 3L),
    (1L, 5L),
    (1L, 7L),
    (1L, 4L),
    (1L, 2L)
  )).keyBy(_._1)
    .flatMap(new CountWindowAverage())
    .print()
  // the printed output will be (1,4) and (1,5)

  env.execute("ExampleManagedState")
}