一、消息队列

1. 什么是消息队列?

  1. 消息(Message):是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。
  2. 消息队列(Message Queue):是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保信息的可靠专递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的存在。

2. 消息队列的应用场景

  1. 应用耦合:多应用间通过消息队列对同一消息进行处理,避免调用接口失败导致整个过程失败。
  2. 异步处理:应用对消息队列中同一消息进行处理,应用间并发处理消息。
  3. 限流削峰:避免流量过大导致应用系统挂掉的情况;
  4. 消息驱动的系统:系统分为消息队列、消息生产者、消息消费者,生产者负责产生消息,消费者(可能有多个)负责对消息进行处理;

3.消息队列的两种模式

消息队列包括两种模式,点对点模式(point to point, queue)和发布/订阅模式(publish/subscribe,topic)

3.1 点对点模式

点对点模式下包括三个角色:
消息队列
发送者 (生产者):生产数据的一方/将数据推送到队列中的一方。
接收者(消费者):在队列中读取了数据的一方
理解: QQ/微信跟某个人聊天就是一种点对点模式

1. 过程

消息发送者生产消息发送到queue中,然后消息接收者从queue中取出并且消费消息。消息被消费以后,queue中不再有存储,所以消息接收者不可能消费到已经被消费的消息。

在这里插入图片描述

2. 特点
  1. 每个消息只有一个接收者(Consumer)(即一旦被消费,消息就不再在消息队列中)。
  2. 发送者和接收者间没有依赖性,发送者发送消息之后,不管有没有接收者在运行,都不会影响到发送者下次发送消息。
  3. 接收者在成功接收消息之后需向队列应答成功,以便消息队列删除当前接收的消息。

3.2发布订阅模式

发布/订阅模式下包括三个角色:

  1. 角色主题(Topic)
  2. 发布者(Publisher)
  3. 订阅者(Subscriber)
1.过程

发布者将消息发送到Topic,系统将这些消息传递给多个订阅者。
理解: QQ/微信 群聊,发一条信息整个群的人的能看到(私发不算)

在这里插入图片描述

2.特点
  1. 每个消息可以有多个订阅者。
  2. 发布者和订阅者之间有时间上的依赖性。针对某个主题(Topic)的订阅者,它必须创建一个订阅者之后,才能消费发布者的消息。
  3. 为了消费消息,订阅者需要提前订阅该角色主题,并保持在线运行。

二、kafka的基本介绍

1.什么是kfka?

  1. kafka是一个分布式分区的多副本的多订阅者的消息发布订阅系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等,也可以说kafka是一个消息队列。最初由linkedin公司开发,使用scala语言编写
  2. kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

在这里插入图片描述

2. kafka的好处

  1. 可靠性:分布式的,分区,复制和容错。
  2. 可扩展性:kafka消息传递系统轻松缩放,无需停机。
  3. 耐用性:kafka使用分布式提交日志,这意味着消息会尽可能快速的保存在磁盘上,因此它是持久的。
  4. 性能:kafka对于发布和定于消息都具有高吞吐量。即使存储了许多TB的消息,他也爆出稳定的性能。
  5. kafka非常快:保证零停机和零数据丢失。

3.kafka的主要应用场景

注意: kafka本身是一个消息队列,因此包含消息队列的应用场景,下面不重复叙述了

3.1指标分析

kafka通常用于操作监控数据。用于接收、聚合来自多种应用程序的统计信息, 以便于向产生环境中的数据集中反馈数据。

3.2日志聚合解决方法

kafka可用于跨组织从多个服务器收集日志,并使他们以标准的合适提供给多个服务器。

3.3流式处理

从现在非常流行的框架(如Storm,Spark Streaming)从topic中读取数据,实时对其进行处理,并将处理后的数据写入新topic中,供用户和应用程序使用。

三、kafka 的架构

1.kafka的宏观架构

在这里插入图片描述

Producer: 应用程序发布记录流至一个或者多个kafka的主题(topics)
Consumer: 应用程序订阅一个或者多个主题(topics)
Connectors: 允许构建和运行可重用的生产者或者消费者
StreamProcessors: 允许应用程序充当流处理器

2. kafka主要组件

2.1 kafka主要组件

Broker:kafka集群中包含一个或者多个服务实例,这种服务实例被称为Broker
Topic:每条发布到kafka集群的消息都有一个类别,这个类别就叫做Topic
Partition:Partition是一个物理上的概念,每个Topic包含一个或者多个Partition
segment:一个partition当中存在多个segment文件段,每个segment分为两部分,.log文件和.index文件,其中.index文件是索引文件,主要用于快速查询.log文件当中数据的偏移量位置
Producer:负责发布消息到kafka的Broker中。
Consumer:消息消费者,向kafka的broker中读取消息的客户端
Consumer Group:每一个Consumer属于一个特定的Consumer Group(可以为每个Consumer指定 groupName)
.log:存放数据文件
.index:存放.log文件的索引数据

2.2 kafka主要组件说明 (补充)

  1. producer
  2. topic
  3. partition
  4. segment
  5. consumer
  6. Consumer Group 和 partition 的关系
  7. kafka当中的partition的offset

3.kafka的微观架构

在这里插入图片描述

  1. Kafka生态系统四大角色,生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper
  2. 每个消费者都必须属于一个消费组,一个组内的消费者可以多个。
  3. 一个Topic可以有0到多个多个分区(Partition)
  4. 一个分区可以有0到多个segment。
  5. 每个segment可以有由一个.log和一个.index文件组成。
  6. 被复制的分区叫做主副本(Leader),复制出来的叫做从副本(Follwer)
  7. 生产者只往主副本写数据,消费者只在主副本拉取数据。
  8. 从副本只做数据备份,不做数据读写。
  9. 一个分区内的一条数据,只能被一个消费组内的一个消费者消费
  10. 消费者的最大并发度由topic的分区数量决定
  11. 分区副本的数量必须小于等于broker的数量
  12. 一个topic内的多个分区,每个分区只是所有数据的一部分。所有分区的数据累加到一起是这个topic的全部数据。
  13. zookeeper中记录了broker的id 、消费者消费数据的offset,消费者与partition的对应关系(ConsumerA—> Partition-0, ConsumerB—> Partition-1)
Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐