spark读取parquet文件

spark-shell读取parquet文件1、进入spark-shell窗口2、val sqlContext = new org.apache.spark.sql.SQLContext(sc)3、val parquetFile = sqlContext.parquetFile("hdfs://cdp/user/az-user/sparkStreamingKafka2Hd...

qq_43193797

1692人浏览 · 2019-10-14 13:31:04

qq_43193797 · 2019-10-14 13:31:04 发布

spark-shell读取parquet文件

1、

进入spark-shell窗口

2、

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

3、

val parquetFile = sqlContext.parquetFile("hdfs://cdp/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

hdfs://cdp是defaultFS，也可以不写，如下:

val parquetFile2 = sqlContext.parquetFile("/user/az-user/sparkStreamingKafka2HdfsData/part-00000-ff60a7d3-bf91-4717-bd0b-6731a66b9904-c000.snappy.parquet")

4、
parquetFile.take(30).foreach(println)

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐