spark streaming消费kafka报错 Kafka ConsumerRecord is not serializable.Use .map to extract fields before

2020-04-15 15:56:50,026ERROR --- [streaming-job-executor-0]org.apache.spark.streaming.kafka010.KafkaRDD(line:70):Kafka Consume...

wppwpp1

2923人浏览 · 2020-04-15 19:43:09

wppwpp1 · 2020-04-15 19:43:09 发布

2020-04-15 15:56:50,026  ERROR --- [                          streaming-job-executor-0]  org.apache.spark.streaming.kafka010.KafkaRDD                                    (line:   70)  :  Kafka ConsumerRecord is not serializable. Use .map to extract fields before calling .persist or .window
2020-04-15 15:57:00,052  ERROR --- [                          streaming-job-executor-0]  org.apache.spark.streaming.kafka010.KafkaRDD                                    (line:   70)  :  Kafka ConsumerRecord is not serializable. Use .map to extract fields before calling .persist or .window
2020-04-15 15:57:10,012  ERROR --- [                          streaming-job-executor-0]  org.apache.spark.streaming.kafka010.KafkaRDD                                    (line:   70)  :  Kafka ConsumerRecord is not serializable. Use .map to extract fields before calling .persist or .window
2020-04-15 15:57:20,130  ERROR --- [                          streaming-job-executor-0]  org.apache.spark.streaming.kafka010.KafkaRDD                                    (line:   70)  :  Kafka ConsumerRecord is not serializable. Use .map to extract fields before calling .persist or .window
2020-04-15 15:57:30,077  ERROR --- [                          streaming-job-executor-0]  org.apache.spark.streaming.kafka010.KafkaRDD                                    (line:   70)  :  Kafka ConsumerRecord is not serializable. Use .map to extract fields before calling .persist or .window

报错信息如上，

2，通过代码发现rdd的产生的dataframe没有cache，dataframe加上cache就行了

原始代码如下：

     val user_visit_history = rdd
          .map{ record =>
          val event = JSON.parseObject(record.value().toString)
          val uid = event.getString("uid")
          val cid = event.getString("cid")
          val optType = event.getInteger("optType")
          val optValue = event.getInteger("optValue")
          user_visit_his(uid,cid,optType,optValue)
        }
        .filter{ record =>
           if( record.optType == 4 && record.optValue>= 0){
             true
           }else{
             false
           }
        }
        .toDF("user_id","video_id","optType","optValue")

3，通过对 user_visit_history 加上一行代码，问题修复：

user_visit_history.cache()

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...