Kafka基本介绍和Kafka的架构
文章目录1.kafka的基本介绍1.kafka的基本介绍Kafka是一个分布式的,分区的,多副本的,多订阅者的消息发布订阅系统。支持Topic进行归类数据发送者(生产者)Producer数据接收者(消费者)ConsumerKafka节点(存数据)broker...
文章目录
一、消息队列
1. 什么是消息队列?
- 消息(Message):是指在应用之间传送的数据,消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。
- 消息队列(Message Queue):是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保信息的可靠专递,消息发布者只管把消息发布到MQ中而不管谁来取,消息使用者只管从MQ中取消息而不管谁发布的,这样发布者和使用者都不用知道对方的存在。
2. 消息队列的应用场景
应用耦合
:多应用间通过消息队列对同一消息进行处理,避免调用接口失败导致整个过程失败。异步处理
:应用对消息队列中同一消息进行处理,应用间并发处理消息。限流削峰
:避免流量过大导致应用系统挂掉的情况;消息驱动的系统
:系统分为消息队列、消息生产者、消息消费者,生产者负责产生消息,消费者(可能有多个)负责对消息进行处理;
3.消息队列的两种模式
消息队列包括两种模式,
点对点模式
(point to point, queue)和发布/订阅模式
(publish/subscribe,topic)
3.1 点对点模式
点对点模式下包括三个角色:
消息队列
发送者 (生产者)
:生产数据的一方/将数据推送到队列中的一方。
接收者(消费者)
:在队列中读取了数据的一方
理解: QQ/微信跟某个人聊天就是一种点对点模式
1. 过程
消息发送者生产消息发送到queue中,然后消息接收者从queue中取出并且消费消息。消息被消费以后,queue中不再有存储,所以消息接收者不可能消费到已经被消费的消息。
2. 特点
- 每个消息只有一个接收者(Consumer)(即一旦被消费,消息就不再在消息队列中)。
- 发送者和接收者间没有依赖性,发送者发送消息之后,不管有没有接收者在运行,都不会影响到发送者下次发送消息。
- 接收者在成功接收消息之后需向队列应答成功,以便消息队列删除当前接收的消息。
3.2发布订阅模式
发布/订阅模式下包括三个角色:
- 角色主题(Topic)
- 发布者(Publisher)
- 订阅者(Subscriber)
1.过程
发布者将消息发送到Topic,系统将这些消息传递给多个订阅者。
理解: QQ/微信 群聊,发一条信息整个群的人的能看到(私发不算)
2.特点
- 每个消息可以有多个订阅者。
- 发布者和订阅者之间有时间上的依赖性。针对某个主题(Topic)的订阅者,它必须创建一个订阅者之后,才能消费发布者的消息。
- 为了消费消息,订阅者需要提前订阅该角色主题,并保持在线运行。
二、kafka的基本介绍
1.什么是kfka?
- kafka是一个
分布式
,分区的
,多副本的
,多订阅者
的消息发布订阅系统(分布式MQ系统),可以用于搜索日志,监控日志,访问日志等,也可以说kafka是一个消息队列
。最初由linkedin公司开发,使用scala语言编写
。- kafka对消息保存时根据Topic进行归类,
发送消息者成为Producer,消息接受者成为Consumer
,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker
。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。
2. kafka的好处
可靠性
:分布式的,分区,复制和容错。可扩展性
:kafka消息传递系统轻松缩放,无需停机。耐用性
:kafka使用分布式提交日志,这意味着消息会尽可能快速的保存在磁盘上,因此它是持久的。性能
:kafka对于发布和定于消息都具有高吞吐量。即使存储了许多TB的消息,他也爆出稳定的性能。kafka非常快
:保证零停机和零数据丢失。
3.kafka的主要应用场景
注意: kafka本身是一个消息队列,因此包含消息队列的应用场景,下面不重复叙述了
3.1指标分析
kafka通常用于操作监控数据。用于接收、聚合来自多种应用程序的统计信息, 以便于向产生环境中的数据集中反馈数据。
3.2日志聚合解决方法
kafka可用于跨组织从多个服务器收集日志,并使他们以标准的合适提供给多个服务器。
3.3流式处理
从现在非常流行的框架(如Storm,Spark Streaming)从topic中读取数据,实时对其进行处理,并将处理后的数据写入新topic中,供用户和应用程序使用。
三、kafka 的架构
1.kafka的宏观架构
Producer: 应用程序发布记录流至一个或者多个kafka的主题(topics)
Consumer: 应用程序订阅一个或者多个主题(topics)
Connectors: 允许构建和运行可重用的生产者或者消费者
StreamProcessors: 允许应用程序充当流处理器
2. kafka主要组件
2.1 kafka主要组件
Broker
:kafka集群中包含一个或者多个服务实例,这种服务实例被称为Broker
Topic
:每条发布到kafka集群的消息都有一个类别,这个类别就叫做Topic
Partition
:Partition是一个物理上的概念,每个Topic包含一个或者多个Partition
segment
:一个partition当中存在多个segment文件段,每个segment分为两部分,.log
文件和.index
文件,其中.index文件是索引文件,主要用于快速查询.log文件当中数据的偏移量位置
Producer
:负责发布消息到kafka的Broker中。
Consumer
:消息消费者,向kafka的broker中读取消息的客户端
Consumer Group
:每一个Consumer属于一个特定的Consumer Group(可以为每个Consumer指定 groupName)
.log
:存放数据文件
.index
:存放.log文件的索引数据
2.2 kafka主要组件说明 (补充)
- producer
- topic
- partition
- segment
- consumer
- Consumer Group 和 partition 的关系
- kafka当中的partition的offset
3.kafka的微观架构
- Kafka生态系统四大角色,生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper
- 每个消费者都必须属于一个消费组,一个组内的消费者可以多个。
- 一个Topic可以有0到多个多个分区(Partition)
- 一个分区可以有0到多个segment。
- 每个segment可以有由一个.log和一个.index文件组成。
- 被复制的分区叫做主副本(Leader),复制出来的叫做从副本(Follwer)
- 生产者只往主副本写数据,消费者只在主副本拉取数据。
- 从副本只做数据备份,不做数据读写。
一个分区内的一条数据,只能被一个消费组内的一个消费者消费
。消费者的最大并发度由topic的分区数量决定
分区副本的数量必须小于等于broker的数量
一个topic内的多个分区,每个分区只是所有数据的一部分。所有分区的数据累加到一起是这个topic的全部数据。
- zookeeper中记录了broker的id 、消费者消费数据的offset,消费者与partition的对应关系(ConsumerA—> Partition-0, ConsumerB—> Partition-1)
更多推荐
所有评论(0)