spark streaming每次从kafka拉取多少数据

spark streaming每个 job的数据量与以下几个参数有关。1. 批次间隔时间，例如5秒拉取一次2. 自己配置的每个partition 一次最少拉取的条数假设5秒一个批次，kafka 5个partition，配置每个partition最少拉取1000条那么最终一个Job中的数据条数 25000条（1000*5*5)（正常情况下）。如果kafka有数据堆积，比如...

哥伦布112

4153人浏览 · 2020-04-11 22:54:11

哥伦布112 · 2020-04-11 22:54:11 发布

spark streaming每个 job的数据量与以下几个参数有关。

1. 批次间隔时间，例如5秒拉取一次

2. 自己配置的每个partition 一次最少拉取的条数

假设5秒一个批次，kafka 5个partition，配置每个partition最少拉取1000条

那么最终一个Job中的数据条数 25000条（1000*5*5)（正常情况下）。

如果kafka有数据堆积，比如程序异常down掉，累计了70万条数据。没有手动修改偏移量的情况下，那么第一个job就会有70万条记录。

最好自己管理偏移量，比如我存在了Oracle。

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

cover

zookeeper+kafka群集

Kafka开源项目指南

KubeSphere 部署 Kafka 集群实战指南

本文档将详细阐述如何利用 Helm 这一强大的工具，快速而高效地在 K8s 集群上安装并配置一个 Kafka 集群。

Kafka开源项目指南

cover

zookeeper+kafka+ELK+filebeat集群

Kafka开源项目指南

所有评论(0)

查看更多评论

哥伦布112

已为社区贡献10条内容