flink sql 的 source / sink 原理

文章目录sourcesource对于flink sql 中的source 无奈就两种.流表比如数据源是kafka 或者mq等动态数据源维表数据源是mysql/hbase/redis等静态数据源datastream 定义一个source的基本内容source , sink 的connector 连接配置信息(sql中connector)source , sink的序列化方式信息(sql 中form

_东极

2623人浏览 · 2021-11-08 23:43:20

_东极 · 2021-11-08 23:43:20 发布

文章目录

- - source

source

对于flink sql 中的source 无奈就两种
.流表比如数据源是kafka 或者mq等动态数据源
维表数据源是mysql/hbase/redis等静态数据源

datastream 定义一个source的基本内容

source , sink 的connector 连接配置信息(sql中connector)
source , sink的序列化方式信息(sql 中format字段)
source,sink的字段信息 (sql source ,sink field 信息)
source, slink对象 (sql 中 source、sink catalog_name、db_name、table_name)
例如:

https://ci.apache.org/projects/flink/flink-docs-release-1.14/zh/docs/dev/table/sql/create/#create-table
在这里插入图片描述

MetaData : 将sql create source table 转化为实际的CataLogTable 翻译为RelNode
PLanning: 创建RelNode的过程中使用SPI 将所有的source( DynamicTableSource) 和sink (DynamicTableSinkFactory) : 工厂动态加载获取到 connector=kafka,然后从所有source工厂中过滤出名称为kafka 同时继承 DynamicTableSourceFactory.class 的工厂类
kafkaDynamicTableFactory,使用kafkaDynamicTableFactory创建出KafkaDynamicSource
Runtime: KafkaDynamicSource 创建出FlinkKafkaConsumer,负责flink 实际运行

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...