Spark on Yarn开发运维过程中遇到的问题汇总


  1. 启动nodemanager报错 No space left on device

    使用df -h命令判断nodemanager运行日志和启动日志磁盘空间是否足够。

  2. 使用pyspark读取kafka对应topic数据报错java.lang.NoClassDefFoundError: org/apache/kafka/common/message/KafkaLZ4BlockOutputStream

    • 更改之前

      ./bin/spark-submit –jars lib/spark-streaming-kafka_2.10-1.6.1.jar,lib/kafka_2.10-0.8.2.1.jar,lib/metrics-core-2.2.0.jar –deploy-mode client ./project/stream.py

    • 更改之后

      ./bin/spark-submit –jars lib/spark-streaming-kafka_2.10-1.6.1.jar,lib/kafka_2.10-0.8.2.1.jar,lib/metrics-core-2.2.0.jar,lib/kafka-clients-0.8.2.1.jar –deploy-mode client ./project/stream.py

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐