kafka简介

partition中的数据是有序的，partition间的数据丢失了数据的顺序。副本不会被消费者消费，副本只用于防止数据丢失，即消费者不从为follower的partition中消费数据，而是从为leader的partition中读取数据。Kafka在保证了较高的处理速度的同时，又能保证数据处理的低延迟和数据的零丢失。Apache Kafka是一个分布式的发布-订阅消息系统，能够支撑海量数据的数据

字符跳跃

1141人浏览 · 2023-08-02 09:20:18

字符跳跃 · 2023-08-02 09:20:18 发布

kafka是什么？

Kafka最初采用Scala语言开发的一个多分区、多副本并且基于ZooKeeper协调的分布式消息系统。目前Kafka已经定位为一个分布式流式处理平台，它的特性有高吞吐、可持久化、可水平扩展、支持流处理。
Apache Kafka是一个分布式的发布-订阅消息系统，能够支撑海量数据的数据传递。在离线和实时的消
息处理业务系统中，Kafka都有广泛的应用。Kafka将消息持久化到磁盘中，并对消息创建了备份保证了数据的安全。Kafka在保证了较高的处理速度的同时，又能保证数据处理的低延迟和数据的零丢失。

kafka的特点？

高吞吐量、低延迟。每个主题可以分为多个分区，消费组对分区进行消费操作。
高扩展性：kafka集群支持热扩展。
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失。
容错性：允许集群中节点失败，（若副本数量为n，则允许n-
1个节点失败）
高并发：支持数千个客户端同时读写

kafka的技术优点？

可伸缩性：kafka在运行期间可以轻松地添加和删除代理，而不会宕机。可以扩展主题的分区。由于分区无法扩展到多个代理，所以容量受磁盘空间限制。能够增加分区和代理的数量意味着单个主题可以存储的数量是无限制的。（主题和分区可以跨代理吗？）
容错性和可靠性：kafka的设计方式使某个代理的故障能够被集群找那个的其他代理检测到。由于每个主题都可以在多个代理上复制，所以集群可以在不中断服务的情况下从此类故障中恢复并继续运行。
吞吐量：能够以超快的速度有效的存储和检索数据。

kafka内的术语？

Producer

生产者将消息发布到Kafka的主题topic中。broker接收到生产者发送的消息后，broker将该消息追加到当前用于追加数据的segment文件中。生产者发送的消息，存储到一个partition
中，生产者也可以指定数据存储的partition。

Consumer

消费者可以从broker中读取数据。消费者可以消费多个topic中的数据。

Topic

使用一个类别属性来划分数据的所属类，划分数据的这个类称为topic。如果把Kafka看做为一个数据库，topic可以理解为数据库中的一张表，topic的名字即为表名。

Partition

topic中的数据分割为一个或多个partition。每个topic至少有一个partition。每个partition中的数据使用多个segment文件存储。partition中的数据是有序的，partition间的数据丢失了数据的顺序。在需要严格保证消息消费顺序的场景下，需要将partition数目设为1。

Partition offset

每条消息都有一个当前Partition下唯一的64字节的offset，它指明了这条消息的起始位置。

Replicas of partition

副本是一个分区的备份。副本不会被消费者消费，副本只用于防止数据丢失，即消费者不从为follower的partition中消费数据，而是从为leader的partition中读取数据。副本之间是一主多从的关系。

Broker

Kafka 集群包含一个或多个服务器，服务器节点称为broker。broker存储topic的数据。如果某topic有N个partition，集群有N个broker，那么每个broker存储该topic的一个partition。设置brocker的数量大于分区的数量。

Leader

一个分区有多个副本，有且仅有一个副本是leader，其他是follower

Follower

Follower跟随Leader，所有写请求都通过Leader路由，数据变更会广播给所有Follower，Follower与Leader保持数据同步。如果Leader失效，则从Follower中选举出一个新的Leader。当Follower与Leader挂掉、卡住或者同步太慢，leader会把这个follower从“in sync replicas”（ISR）列表中删除，重新创建一个Follower。

Zookeeper

Zookeeper负责维护和协调broker。当Kafka系统中新增了broker或者某个broker发生故障失效时，由ZooKeeper通知生产者和消费者。生产者和消费者依据Zookeeper的broker状态信息与broker协调数据的发布和订阅任务。

AR(Assigned Replicas)

分区中所有的副本统称为AR。

ISR(In-Sync Replicas)

所有与Leader部分保持一定程度的副（包括Leader副本在内）本组成ISR

OSR(Out-of-Sync-Replicas)

与Leader副本同步滞后过多的副本。

HW(High Watermark)

高水位，标识了一个特定的offset，消费者只能拉取到这个offset之前的消息。

LEO(Log End Offset)

即日志末端位移(log end offset)，记录了该副本底层日志(log)中下一条消息的位移值。注意是下一条消息！也就是说，如果LEO=10，那么表示该副本保存了10条消息，位移值范围是[0, 9]。

kafka的安装步骤

前提条件：jdk、zookeeper、kafka
安装jdk：
1、所有文件放入/opt/java,然后tar -zxvf命令解压
2、配置环境变量，/etc/profile文件

export JAVA_HOME=/opt/java/jdk-12.0.1
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=.:$JAVA_HOME/bin:$JRE_HOME/bin:$KE_HOME/bin:${MAVEN_HOME}/bin:$PATH

3、测试jdk是否安装成功，java -version命令查看
安装zookeeper:
1.conf目录下修改配置文件,配置文件默认名：zoo_sample.cfg
cp命令复制配置文件，命名为zoo.cfg,
修改数据目录和日志目录
/opt/java/zookeeper-3.4.14
/opt/java/zookeeper-3.4.14
2.启动zookeeper
[root@localhost zookeeper-3.4.14]# bin/zkServer.sh start
安装kafka：
1、修改配置文件service.properties
修改日志/opt/java/kafka_2.12-2.2.1/log
2、启动kafka：bin/kafka-server-start.sh config/server.properties
启动kafka后台运行：bin/kafka-server-start.sh -daemon config/server.properties
listeners=PLAINTEXT://:9092去掉注释
log.dirs=/opt/java/kafka_2.12-2.2.1/log新建日志目录并设置日志地址
zookeeper.connect=localhost:2181打开zookeeper连接

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...