Kafka（分布式发布订阅消息系统）

http://kafka.apache.org/目前越来越多的开源分布式处理系统如Apache Storm、Spark都支持与Kafka集成。组件Broker['brəʊkə] n.经纪人Kafka集群包含一个或多个服务器，这种服务器被称为broker。Topic每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。PartitionPari

yichudu

3888人浏览 · 2015-04-17 16:31:44

yichudu · 2015-04-17 16:31:44 发布

http://kafka.apache.org/

目前越来越多的开源分布式处理系统如Apache Storm、Spark都支持与Kafka集成。

使用场景：设想这样一个情景：想分析用户在网站上的的浏览行为。这些浏览日志，存数据库浪费，直接存硬盘又怕到时候操作效率低。
此时，消息系统就是一个选择。

1.组件

Broker
['brəʊkə] n.经纪人
Kafka集群包含一个或多个服务器，这种服务器被称为broker。
Topic
每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。
Partition
每个Topic包含一个或多个Partition。
Producer
生产者，负责发布消息到Kafka broker。
Consumer
消费者，从Kafka broker读取消息的客户端。
Consumer Group

每个Consumer属于一个特定的Consumer Group。

2.常用类

2.1消费者

kafka.javaapi.consumer. ConsumerConnector
kafka消费者的连接信息。
ConsumerConnector kafka.consumer.Consumer. createJavaConsumerConnector(ConsumerConfig arg0)
创建ConsumerConnector。
Map<String, List<KafkaStream<byte[], byte[]>>> kafka.javaapi.consumer.ConsumerConnector. createMessageStreams(Map<String, Integer> topicCountMap)
根据制定的map创建
kafka.consumer. KafkaStream<byte[], byte[]>
Kafka消息流。
kafka.consumer. ConsumerIterator<byte[], byte[]>
kafka消费者的迭代器。
MessageAndMetadata<byte[], byte[]>
Kafka消息。
byte[] kafka.message.MessageAndMetadata. message()
得到MessageAndMetadata中的信息。

2.2生产者

kafka.javaapi.producer. Producer<Integer, String>
kafka生产者。
kafka.javaapi.producer.Producer. Producer<Integer, String>(ProducerConfig arg0)
Producer的构造函数。
kafka.producer. ProducerConfig
Producer配置。
kafka.producer.ProducerConfig. ProducerConfig(Properties arg0)
ProducerConfig的构造函数。
void kafka.javaapi.producer.Producer. send(KeyedMessage<Integer, String> arg0)
kafka生产者发送消息。

3.消息交付特点

1. kafka对消息的重复、丢失、错误以及顺序没有严格的要求。
2. kafka提供at-least-once delivery,即当consumer宕机后，有些消息可能会被重复delivery。
3. 因每个partition只会被同一consumer group内的一个consumer消费，故kafka保证每个partition内的消息会被顺序的订阅。

4. Kafka为每条消息为每条消息计算CRC校验，用于错误检测，crc校验不通过的消息会直接被丢弃掉。

5.增减consumer，broker，partition会导致rebalance，所以rebalance后consumer对应的partition会发生变化。

4. partition 的个数考虑

a) 如果consumer比partition多，是浪费，因为kafka的设计是在一个partition上是不允许并发的，所以consumer数不要大于partition数。
b) 如果consumer比partition少，一个consumer会对应于多个partitions，这里主要合理分配consumer数和partition数，否则会导致partition里面的数据被取的不均匀。

5.带弄懂

a)server怎么标识不同的consumer？是zk自己分配编号，还是consumer构造函数的参数指定？

b) 何为一个consumer？进程还是线程还是别的什么？

c)consumer所在机器性能低，个数与partition个数一致还是消费不充分怎么办？

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...