Flink SQL Clien读取Kafka数据写入Hive

版本说明：Flink 1.11.1Kafka 2.4.0Hive 2.3.6Hadoop 2.7.3详细步骤：准备相关jar包hive-exec-2.3.6.jarhive-metastore-2.3.6.libfb303-0.9.3.jarjarkafka-clients-2.4.0.jarflink-sql-connector-hive-2.3.6_2.11-1.11.1.jarflink-s

温文尔雅的流氓

2546人浏览 · 2020-10-27 13:39:54

温文尔雅的流氓 · 2020-10-27 13:39:54 发布

版本说明：

Flink 1.11.1
Kafka 2.4.0
Hive 2.3.6
Hadoop 2.7.3

详细步骤：

准备相关jar包

hive-exec-2.3.6.jar
hive-metastore-2.3.6.
libfb303-0.9.3.jarjar
kafka-clients-2.4.0.jar
flink-sql-connector-hive-2.3.6_2.11-1.11.1.jar
flink-sql-connector-kafka_2.11-1.11.1.jar
flink-shaded-hadoop2-uber-2.7.5-1.8.3.jar

修改配置文件

修改$FLINK_HOME/conf/sql-client-defaults.yaml，主要修改两个地方：

catalogs:
  - name: myhive
    type: hive
    hive-conf-dir: /vm_data/apps/apache-hive-2.3.6-bin/conf
    default-database: default

execution:
    current-catalog: myhive

修改$FLINK_HOME/bin/start-cluster.sh，加入Hadoop Classpath：

export HADOOP_CLASSTHPATH=`hadoop classthpath`

修改$HIVE_HOME/conf/hive-site.xml

<property>
  <name>hive.metastore.uris</name>
  <value>thrift://hadoop000:9083</value>
</property>

启动Flink SQL Client

需要先启动Flink Standalone集群

$FLINK_HOME/bin/start-cluster.sh
$FLINK_HOME/bin/sql-client.sh embedded

在Flink SQL Client中创建Hive表，指定数据源为Kafka
在配置文件中配置了默认为default库

CREATE TABLE student(
  id INT,
  name STRING,
  password STRING,
  age INT,
  ts BIGINT,
  eventTime AS TO_TIMESTAMP(FROM_UNIXTIME(ts / 1000, 'yyyy-MM-dd HH:mm:ss')), -- 事件时间
  WATERMARK FOR eventTime AS eventTime - INTERVAL '10' SECOND -- 水印
) WITH (
  'connector.type' = 'kafka',
  'connector.version' = 'universal', -- 指定Kafka连接器版本，不能为2.4.0，必须为universal，否则会报错
  'connector.topic' = 'student', -- 指定消费的topic
  'connector.startup-mode' = 'latest-offset', -- 指定起始offset位置
  'connector.properties.zookeeper.connect' = 'hadoop000:2181',
  'connector.properties.bootstrap.servers' = 'hadooop000:9092',
  'connector.properties.group.id' = 'student_1',
  'format.type' = 'json',
  'format.derive-schema' = 'true', -- 由表schema自动推导解析JSON
  'update-mode' = 'append'
);

启动Kafka，发送数据

$KAFKA_HOME/bin/kafka-console-producer.sh --broker-list hadoop000:9092 --topic student

{"id":12, "name":"kevin", "password":"wong", "age":22, "ts":1603769073}

通过Flink SQL Client查询表中的数据

select * from student

在这里插入图片描述

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...