Kafak详解（1）

但遗憾的是，我们并没有看到刚刚生产的数据，这很好理解，比如新闻联播每晚7点开始了，结果你7点15才打开电视看新闻，自然7点到7点15之间的新闻你就会错过，如果你想要看这之间的新闻，那么就需要其提供回放的功能，幸运的是kafka不仅提供了从头开始回放数据的功能，还可以做到从任意的位置开始回放或者读取数据，这点功能是非常强大的。topic是kafka非常重要的核心概念，是用来存储各种类型的数据的，所以

程序员小郭同学

1463人浏览 · 2024-04-22 17:28:10

程序员小郭同学 · 2024-04-22 17:28:10 发布

简介

消息队列

为什么要有消息队列

图-1 消息队列的使用

消息队列

1)消息Message：网络中的两台计算机或者两个通讯设备之间传递的数据。例如说：文本、音乐、视频等内容。

2)队列Queue：一种特殊的线性表(数据元素首尾相接)，特殊之处在于只允许在首部删除元素和在尾部追加元素(FIFO)。入队、出队。

3)消息队列MQ：消息+队列，保存消息的队列。消息的传输过程中的容器；主要提供生产、消费接口供外部调用做数据的存储和获取。

消息队列的分类

MQ主要分为两类：点对点(p2p)、发布订阅(Pub/Sub)。

1)点对点模式(一对一，消费者主动拉取数据，消息收到后消息清除)消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息。消息被消费以后，queue中不再有存储，所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者，但是对一个消息而言，只会有一个消费者可以消费。

图-2 点对点模式

发布/订阅模式(一对多，消费者消费数据之后不会清除消息)消息生产者(发布)将消息发布到topic中，同时有多个消息消费者(订阅)消费该消息。和点对点方式不同，发布到topic的消息会被所有订阅者消费。消息可以传给多个消费者。

图-3 发布订阅模式

p2p和发布订阅MQ的比较

共同点

消息生产者生产消息发送到queue中，然后消息消费者从queue中读取并且消费消息。

不同点

1)p2p模型包括：消息队列(Queue)、发送者(Sender)、接收者(Receiver)

一个生产者生产的消息只有一个消费者(Consumer)(即一旦被消费，消息就不在消息队列中)。比如说打电话。

2)pub/Sub包含：消息队列(Queue)、主题(Topic)、发布者(Publisher)、订阅者(Subscriber)。

3)每个消息可以有多个消费者，彼此互不影响。比如我发布一个微博：关注我的人都能够看到。

消息系统的使用场景

1)解耦：各系统之间通过消息系统这个统一的接口交换数据，无须了解彼此的存在。

2)冗余：部分消息系统具有消息持久化能力，可规避消息处理前丢失的风险。 3)扩展：消息系统是统一的数据接口，各系统可独立扩展。

4)峰值处理能力：消息系统可顶住峰值流量，业务系统可根据处理能力从消息系统中获取并处理对应量的请求。

5)可恢复性：系统中部分键失效并不会影响整个系统，它恢复会仍然可从消息系统中获取并处理数据。

6)异步通信：在不需要立即处理请求的场景下，可以将请求放入消息系统，合适的时候再处理。

常见的消息系统

1)RabbitMQ Erlang编写，支持多协议AMQP，XMPP，SMTP，STOMP。支持负载均衡、数据持久化。同时支持Peer-to-Peer和发布/订阅模式。

2)Redis 基于Key-Value对的NoSQL数据库，同时支持MQ功能，可做轻量级队列服务使用。就入队操作而言，Redis对短消息(小于10kb)的性能比RabbitMQ好，长消息性能比RabbitMQ差。

3)ZeroMQ 轻量级，不需要单独的消息服务器或中间件，应用程序本身扮演该角色，Peer-to-Peer。它实质上是一个库，需要开发人员自己组合多种技术，使用复杂度高。

4)ActiveMQ JMS实现，Peer-to-Peer，支持持久化、XA(分布式)事务。

5)Kafka/Jafka 高性能跨语言的分布式发布/订阅消息系统，数据持久化，全分布式，同时支持在线和离线处理。

6)MetaQ/RocketMQ 纯Java实现，发布/订阅消息系统，支持本地事务和XA分布式事务。

Kafka简介

Kafka概述

Kafka是分布式的发布—订阅消息系统。它最初由LinkedIn(领英)公司发布，使用Scala语言编写，于2010年12月份开源，成为Apache的顶级项目。Kafka是一个高吞吐量的、持久性的、分布式发布订阅消息系统。它主要用于处理活跃live的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。如图-4所示，很好的显示了Kafka的应用与组成。

图-4 kafka应用与组成

特点

1)高吞吐量：可以满足每秒百万级别消息的生产和消费——生产消费。

2)持久性：有一套完善的消息存储机制，确保数据的高效安全的持久化——中间存储。

3)分布式：基于分布式的扩展和容错机制；Kafka的数据都会复制到几台服务器上。当某一台故障失效时，生产者和消费者转而使用其它的机器——整体。

4)健壮性。

设计目标

1)高吞吐率：在廉价的商用机器上单机可支持每秒100万条消息的读写。

2)消息持久化：所有消息均被持久化到磁盘，无消息丢失，支持消息重放。

3)完全分布式：Producer，Broker，Consumer均支持水平扩展。

4)同时适应在线流处理和离线批处理。

Kafka核心概念

概述

一个MQ需要哪些部分？生产、消费、消息类别、存储等等。

对于kafka而言，kafka服务就像是一个大的水池。不断的生产、存储、消费着各种类别的消息。那么kafka由何组成呢？

Kafka服务

1)Topic：主题，Kafka处理的消息的不同分类。

2)Broker：消息服务器代理，Kafka集群中的一个kafka服务节点称为一个broker，主要存储消息数据。存在硬盘中。每个topic都是有分区的。

3)Partition：Topic物理上的分组，一个topic在broker中被分为1个或者多个partition，分区在创建topic的时候指定。

4)Message：消息，是通信的基本单位，每个消息都属于一个partition。

Kafka服务相关

1)Producer：消息和数据的生产者，向Kafka的一个topic发布消息。

2)Consumer：消息和数据的消费者，定于topic并处理其发布的消息。

3)Zookeeper：协调kafka的正常运行。

Kafka安装与操作

安装与配置

版本说明

安装包下载地址：

Index of /dist/kafka/3.5.0

源码包下载地址：

Index of /dist/kafka/3.5.0

安装配置

1)解压：

tar -zxvf kafka_2.12-3.5.0.tgz -C /opt/module/

2)重命名：

mv kafka_2.12-3.5.0/ kafka-3.5.0/

hadoop101执行以下命令创建数据文件存放目录：

mkdir -p /opt/module/kafka-3.5.0/datas

4)修改配置文件：

// 修改$KAFKA_HOME/config/server.properties

// 当前kafka实例的id，必须为整数，一个集群中不可重复

broker.id=0

// 生产到kafka中的数据存储的目录,目录需要手动创建

log.dirs=/opt/module/kafka-3.5.0/datas

// kafka数据在zk中的存储目录

zookeeper.connect=hadoop101:2181,hadoop102:2181,hadoop103:2181/kafka

// 添加配置，用来删除topic

delete.topic.enable=true

host.name=hadoop101

5)同步到其他机器：

scp -r kafka/ hadoop102:$PWD

scp -r kafka/ hadoop103:$PWD

6)修改broker.id：

//修改broker.id

broker.id=1

broker.id=2

//修改host.name

host.name=hadoop102

host.name=hadoop103

服务启动

服务启动:每台都要运行此命令：

nohup bin/kafka-server-start.sh config/server.properties 2>&1 &

启动结果如图-5所示：

图-5 kafka启动

Kafka基本操作

Kafka的topic操作

topic是kafka非常重要的核心概念，是用来存储各种类型的数据的，所以最基本的就需要学会如何在kafka中创建、修改、删除的topic，以及如何向topic生产消费数据。

关于topic的操作脚本：kafka-topics.sh：

bin/kafka-topics.sh --create \

--topic hadoop \ // 指定要创建的topic的名称

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092\

//指定kafka关联的zk地址

--partitions 3 \ //指定该topic的分区个数

--replication-factor 3 //指定副本因子

创建topic

注意：指定副本因子的时候，不能大于broker实例个数，否则报错，如图-6所示：

图-6 kafka创建topic

当使用正确的方式，即将replication-factor设置为3，之后执行脚本命令，创建topic成功，如图-7所示。

图-7 zookeeper中的topic列表

与此同时，在kafka数据目录data.dir=/opt/module/kafka-3.5.0/datas/中有了新变化，如图-8所示。

图-8 kafka数据目录

查看topic列表

bin/kafka-topics.sh --list \

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092

执行结果如图-9所示。

图-9 kafka topic列表

查看每一个topic的信息

bin/kafka-topics.sh --describe \

--topic hadoop \

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092

执行结果如图-10所示。

图-10 kafka topic信息

其中partition，replicas，leader，isr代表的是什么意思呢。

1)Partition：当前topic对应的分区编号。

2)Replicas：副本因子，当前kafka对应的partition所在的broker实例的broker.id的列表。

3)Leader：该partition的所有副本中的leader领导者，处理所有kafka该partition读写请求。

4)ISR：该partition的存活的副本对应的broker实例的broker.id的列表。

修改一个topic

[root@hadoop101 kafka]$ bin/kafka-topics.sh --alter \

--topic hadoop \

--partitions 4 \

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092

执行结果如图-11所示，可以看出partition由原先的3个变成了4个。

图-11 kafka topic修改partition

但是注意：partition个数，只能增加，不能减少，如图-12所示。

图-12 kafka topic partition只能增加

删除一个topic

[root@hadoop101 kafka]$ bin/kafka-topics.sh --delete \

--topic test \

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092

执行结果如图-13所示

图-13 kafka topic删除

Kafka终端数据生产与消费

脚本简介

在$KAFKA_HOME/bin目录下面提供了很多脚本，其中kafka-console-producer.sh和kafka-console-consumer.sh分别用来在终端模拟生产和消费数据，即作为kafka topic的生产者和消费者存在。

生产数据

生产数据，执行以下的命令：

[root@hadoop101 kafka]$ bin/kafka-console-producer.sh \

--topic hadoop \

--bootstrap-server

hadoop101:9092,hadoop102:9092,hadoop103:9092

如图-14所示：

图-14 kafka-console-producer生产数据

消费数据

类似的，消费刚刚生产的数据需要执行以下命令：

[root@hadoop102 kafka]$ bin/kafka-console-consumer.sh \

--topic hadoop \

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092

如图-15所示：

图-15 kafka-console-producer生产数据

那么此时重新在生产端生产数据，比如4,5,6，再看消费端，如图-16所示，就可以看到有数据产生了。

图-16 kafka-console-consumer消费数据

那么我想要读取1,2,3的数据，那该怎么办呢？此时只需要添加一个参数--from-beginning从最开始读取数据即可，如图-17所示：

图-17 kafka-console-consumer从头消费数据

Kafka的数据消费的总结

消费者与分区之间的关系

kafka消费者在消费数据的时候，都是分组别的。不同组的消费不受影响，相同组内的消费，需要注意，如果partition有3个，消费者有3个，那么便是每一个消费者消费其中一个partition对应的数据；如果有2个消费者，此时一个消费者消费其中一个partition数据，另一个消费者消费2个partition的数据。如果有超过3个的消费者，同一时间只能最多有3个消费者能消费得到数据，如图-18所示。

图-18 kafka消费数据的特点

如下命令查看不同分区中产生的数据：

第一个消费者：

[root@hadoop102 kafka]$ bin/kafka-console-consumer.sh \

--topic hadoop \

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092 \

--partition 0 \

--offset earliest

第二个消费者：

[root@hadoop102 kafka]$ bin/kafka-console-consumer.sh \

--topic hadoop \

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092 \

--partition 1 \

--offset earliest

第三个消费者：

[root@hadoop102 kafka]$ bin/kafka-console-consumer.sh \

--topic hadoop \

--bootstrap-server hadoop101:9092,hadoop102:9092,hadoop103:9092 \

--partition 2 \

--offset earliest

offset：是kafka的topic中的partition中的每一条消息的标识，如何区分该条消息在kafka对应的partition的位置，就是用该偏移量。offset的数据类型是Long，8个字节长度。offset在分区内是有序的，分区间是不一定有序。如果想要kafka中的数据全局有序，就只能让partition个数为1，如图-19所示。

图-19 kafka offset概念

在组内，kafka的topic的partition个数，代表了kafka的topic的并行度，同一时间最多可以有多个线程来消费topic的数据，所以如果要想提高kafka的topic的消费能力，应该增大partition的个数。

Kafka编程api

生产与消费API操作

创建Kafka项目

指定项目存储位置和maven坐标，如图-20所示

图-20 创建maven项目

指定maven依赖信息：

代码如下：

<dependencies>

        <dependency>

            <groupId>org.apache.kafka</groupId>

            <artifactId>kafka-clients</artifactId>

            <version>3.5.0</version>

        </dependency>

</dependencies>

Kafka生产者的api操作

代码如下：

public class OrderProducer {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop101:9092,hadoop102:9092,hadoop103:9092");
        props.put("acks", "all");
        props.put("retries", 0);
        props.put("batch.size", 16384);
        props.put("linger.ms", 1);
        props.put("buffer.memory", 33554432);
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(props);

        for (int i = 0;i<100;i++){
        kafkaProducer.send(new ProducerRecord<String, String>("test","这是第"+i+"条数据"));
        }
        kafkaProducer.close();
    }
}

Kafka消费者api

代码如下：

public class OrderConsumer {

public static void main(String[] args) {

// 1\连接集群

Properties props = new Properties();

props.put("bootstrap.servers", "hadoop101:9092");

props.put("group.id", "test");

//以下两行代码 ---消费者自动提交offset值

props.put("enable.auto.commit", "true");

props.put("auto.commit.interval.ms",  "1000");

props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");



KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<String, String>(props);
kafkaConsumer.subscribe(Arrays.asList("test"));

while (true) {
    ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofMillis(1000));
    for (ConsumerRecord<String, String> consumerRecord : consumerRecords) {
        String value = consumerRecord.value();
        int partition = consumerRecord.partition();
        long offset = consumerRecord.offset();
        String key = consumerRecord.key();
        System.out.println("key:" + key + "value:" + value + "partition:" + partition + "offset:" + offset);
    }
}

}

}

指定分区数据进行消费

1)如果进程正在维护与该分区关联的某种本地状态(如本地磁盘上的键值存储)，那么它应该只获取它在磁盘上维护的分区的记录。

2)如果进程本身具有高可用性，并且如果失败则将重新启动(可能使用YARN，Mesos或AWS工具等集群管理框架，或作为流处理框架的一部分)。在这种情况下，Kafka不需要检测故障并重新分配分区，因为消耗过程将在另一台机器上重新启动。

public static void main(String[] args) {
        Properties props = new Properties();
        props.put("bootstrap.servers", "hadoop101:9092,hadoop102:9092,hadoop103:9092");
        props.put("group.id", "test");
        props.put("enable.auto.commit", "true");
        props.put("auto.commit.interval.ms", "1000");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(props);

        TopicPartition topicPartition = new TopicPartition("test", 0);
        TopicPartition topicPartition1 = new TopicPartition("test", 1);

        kafkaConsumer.assign(Arrays.asList(topicPartition, topicPartition1));

        while (true) {
            ConsumerRecords<String, String> consumerRecords = kafkaConsumer.poll(Duration.ofMillis(1000));
            for (ConsumerRecord<String, String> consumerRecord : consumerRecords) {
                String value = consumerRecord.value();
                int partition = consumerRecord.partition();
                long offset = consumerRecord.offset();
                String key = consumerRecord.key();
                System.out.println("key:" + key + "value:" + value + "partition:" + partition + "offset:" + offset);
            }
            kafkaConsumer.commitSync();
}

}

}

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

zookeeper+kafka群集

Kafka开源项目指南

zookeeper+kafka+ELK+filebeat集群

Kafka开源项目指南

lua-resty-kafka 使用及安装教程

lua-resty-kafka 使用及安装教程lua-resty-kafkaLua kafka client driver for the Openresty based on the cosocket API项目地址:https://gitcode.com/gh_mirrors/lu/lua-resty-kafka 1. 项目目录结构及介绍lua-resty-kafka 的目录结构如下：...