kafka消息的序列化与反序列化

kafka使用

菠菜很好吃

2672人浏览 · 2022-11-25 21:53:53

菠菜很好吃 · 2022-11-25 21:53:53 发布

一、前言

在使用kafka发送消息时，producer端需要序列化，在大多数场景中，需要传输的是与业务规则相关的复杂类型，这就需要自定义数据结构。 Avro是一种序列化框架，使用JSON来定义schema， sh cema由原始类型(null， boolean， int， long， float， double， bytes， string) 和复杂类型 (record， enum， array， map， union， fixed) 组成， schema文件以.avsc结尾，表示avro schema

有2种序列化方式

二进制方式：也就是Specific方式，定义好schema a svc文件后，使用编译器(avro-tools.jar) 编译生成相关语言(java) 的业务类，类中会嵌入JSON schema ·
JSON方式：也就是Generic方式，在代码中动态加载schema a svc文件，将FieldName-Field Value，以Map<K， V>的方式存储

序列化后的数据号schema和data同时存在的，如下图、
在这里插入图片描述

二、序列化与反序列化实现

1、序列化（producer）

props.put("key.serializer",StringSerializer.class.getName());
props.put("value.serializer",StringSerializer.class.getName());

2、反序列化（consumer）

props.put("key.deserializer",StringDeserializer.class.getName());
props.put("value.deserializer",StringDeserializer.class.getName());

如果是flink,也可以用：

KafkaSourceBuilder 类提供了两个方法来反序列数据,分别是 setDeserializer 和 setValueOnlyDeserializer
从名字上就应该可以看出这两者的区别,前者是反序列化完整的 ConsumerRecord,后者只反序列化 ConsumerRecord 的 value.

如果你想要获取 kafka 的元数据信息选择实现 KafkaDeserializationSchema 接口就可以了,KafkaDeserializationSchema 接口还有 4 个静态方法,其中的 of 方法就是用来反序列化 ConsumerRecord 的,剩下的 3 个 valueOnly 是用来反序列化 kafka 消息中的 value 的.

KafkaSource<String> source = KafkaSource.<String>builder()
			    .setBootstrapServers("ip")
			    .setTopics("web-topic")
			    .setGroupId("web-group")
			    .setStartingOffsets(OffsetsInitializer.earliest())//低版本jdk报错，改成jdk8
			    .setValueOnlyDeserializer(new SimpleStringSchema())
			    .build();

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...