flink sql 时态和和静态表的理解

静态表flink sql 定义的维度表,一般程序启动的时候将维度即信息一次性缓存到内存中,下次流数据与之关联的时候,实际是与内存中数据进行关联查询样例SQLcreate table source_kafka (id bigint,name string,proctime as proctime()) WITH ('connector' = 'kafka','topic' = 'test','pro

_东极

3539人浏览 · 2022-03-18 12:06:48

_东极 · 2022-03-18 12:06:48 发布

静态表

flink sql 定义的维度表,一般程序启动的时候将维度即信息一次性缓存到内存中,下次流数据与之关联的时候,实际是与内存中数据进行关联查询
样例SQL

create table source_kafka (
id bigint,
name string,
proctime as proctime()
) WITH (
  'connector' = 'kafka',
  'topic' = 'test',
  'properties.bootstrap.servers' = 'xxx',
  'properties.group.id' = 'test',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'json'
);


CREATE TABLE source_hbase (
  id string,
  cf ROW <name string>,
  PRIMARY KEY (id) NOT ENFORCED
) WITH (
'connector' = 'hbase-2.2',
'table-name' = 'zyd_test',
'zookeeper.quorum' = 'xxx'
);

create table sink_print(
id bigint,
name string
)
 WITH (
'connector' = 'print'
);

insert into sink_print
select 
t1.id,t2.name
from
source_kafka t1
left join 
source_hbase t2
on t1.id=cast(t2.id as bigint);

kafka 测试用例,第二条数据是修改hbase后发送的
在这里插入图片描述
hbase操作

flink 输出日志

hbase中再增加一条数据

kafka中也发送了

flink 结果

动态表

针对以上问题,维度发生更新了怎么办,需要引入动态表,锁定事件的时间

create table source_kafka (
id bigint,
name string,
proctime as proctime()
) WITH (
  'connector' = 'kafka',
  'topic' = 'test',
  'properties.bootstrap.servers' = 'xxx',
  'properties.group.id' = 'test',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'json'
);


CREATE TABLE source_hbase (
  id string, --客户id
  cf ROW <name string>, --预约id
  PRIMARY KEY (id) NOT ENFORCED
) WITH (
'connector' = 'hbase-2.2',
'table-name' = 'zyd_test',
'zookeeper.quorum' = 'xxx'
);

create table sink_print(
id bigint,
name string
)
 WITH (
'connector' = 'print'
);

insert into sink_print
select 
t1.id,t2.name
from
source_kafka t1
left join 
source_hbase for system_time as of proctime as t2
on cast( t1.id as string)=t2.id ;

在这里插入图片描述
换种写法报错

insert into sink_print
select 
t1.id,t2.name
from
source_kafka t1
left join 
source_hbase for system_time as of proctime as t2
on t1.id =cast(t2.id as bigint);

Caused by: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Temporal table join requires equivalent condition of the same type, but the condition is id[BIGINT]=id[STRING NOT NULL]
可以发现 flink sql 关联动态表的时候,其实先将流表数据与动态表关联,再去flink sql 中逻辑处理,所以报错类型不匹配

这样流的数据量过大,对于维表不是有很大的io消耗么,所以flink sql 使用了lookupcache的概念,那就是加缓存

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...