【Spark大数据习题】习题_Spark SQL&&&Kafka&& HBase&&Hive

1、Spark SQL的前身是 Shark，Shark最初是瑞士洛桑联邦理工学院（EPFL）的编程方法实验室研发的 Spark 生态系统的组件之一。3、Kafka集群是由生产者（Producer）、消息代理服务器（Broker Server)和***消费者（Consumer)***组成。2.本地向量分为密集向量和稀疏向量，密集向量是由两个并列的数组（索引、值）支持，而稀疏向量是由 Double类型

拾贰_CTF

2885人浏览 · 2023-06-01 16:48:10

拾贰_CTF · 2023-06-01 16:48:10 发布

Scala语言基础

PDF资源路径-Spark1
PDF资源路径-Spark2

一、填空题

1、Scala语言的特性包含面向对象编程、函数式编程的、静态类型的、可扩展的、可以交互操作的。

2、在Scala数据类型层级结构的底部有两个数据类型，分别是 Nothing和Null。

3、在Scala中，声明变量的关键字有var声明变量和val声明常量。

4、在Scala中，获取元组中的值是通过下划线加角标来获取的。

5、在Scala中，模式匹配是由关键字match和case组成的。

二、判断题

1、安装Scala之前必须配置JDK。（√）

2、Scala语言是一种面向过程编程语言。（×）

3、在Scala中，使用关键字var声明的变量，值是不可变的。（×）

4、在Scala中定义变长数组时，需要导入可变数组包。（√）

5、Scala语言和Java语言一样，都有静态方法或静态字段。（×）

三、选择题

1、下列选项中，哪个是Scala编译后文件的扩展名（A）
A .class B .bash C .pyc D .sc

2、下列方法中，哪个方法可以正确计算数组arr的长度？（D）
A count() B take() C tail() D length()

3、下列关于List的定义，哪个是错误的？（D）
A val list = List(1,22,3) B val list = List(“Hello”, “Scala”)
C val list : String = List(“A”, “B”) D val list = List[Int] (1,2,3)

Spark基础

一、填空题

1、Spark生态系统包含Spark Core 、Spark SQL、Spark Streaming 、MLib、GraphX以及独立调度器组件。

2、Spark计算框架的特点是速度快、易用性、通用性和兼容性。

3、Spark集群的部署模式有Standalone模式、 YARN模式和Mesos模式。

4、启动Spark集群的命令为sbin/start-all.sh。

5、Spark集群的运行框架由SparkContext、Cluster Manager和Worker组成。

二、判断题

1、Spark诞生于洛桑联邦理工学院(EPFL)的编程方法实验室。（×）

2、Spark比Hadoop计算的速度快。（√）

3、部署Spark高可用集群不需要用到 Zookeeper服务（X）

4、Spark Master HA 主从切换过程不会影响集群已有的作业运行。（√）

5、集群上的任务是由执行器来调度的。（X ）

三、选择题

1、下列选项中，（ D ）不是Spark生态系统中的组件。
A. Spark Streaming B. Mlib C. Graphx D. Spark R

2、下面哪个端口不是Spark自带服务的端口（C）
A. 8080 B. 4040 C. 8090 D. 18080

3、下列选项中，针对Spark运行的基本流程哪个说法是错误的。（B）
A. Driver端提交任务，向Master申请资源
B. Master与Worker进行TCP通信，使得Worker启动Executor
C. Executor启动会主动连接Driver，通过Driver->Master->WorkExecutor，从而得到Driver在哪里
D.Driver会产生Task，提交给Executor中启动Task去做真正的计算

Spark RDD 弹性分布式数据集
1、RDD是分布式内存的一个抽象概念，也是一个容错的、并行的数据结构。

2、RDD的操作主要分为转换算子操作和行动算子操作。

3、RDD的依赖关系有宽依赖和窄依赖。

4、RDD的分区方式有哈希分区和范围分区。

5、RDD的容错方式有血统方式和设置检查点方式。

二、判断题

1、RDD是一个可变、不可分区、里面的元素是可并行计算的集合。（X）

2、RDD采用了惰性调用，即在RDD的处理过程中，真正的计算发生在RDD的“行动”操作。（√）

3、宽依赖是指每一个父RDD的分区最多被子RDD的一个分区使用。（X）

4、如果一个有向图可以从任意顶点出发经过若干条边回到该点，则这个图就是有向无环图。（X）

5、窄依赖是划分Stage的依据。（X）

三、选择题

1、下列方法中，用于创建RDD的方法是（C）
A. makeRDD B. parallelize C. textFile D. testFile

2、下列选项中，哪个不属于转换算子操作（C）
A． filter(func) B. map(func) C. reduce(func) D. reduceByKey(func)

3、下列选项中，能使RDD产生宽依赖的是（D）
A. map(func) B. filter(func) C. union D. groupByKey()

Spark MLlib机器学习算法库

一、填空题

1.机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

2.通常，机器学习的学习形式分类有监督学习和无监督学习。

3.MLlib库中包含了一些通用的机器学习算法和工具类，包括分类、回归、聚类、降维等。

4.MLlib库的主要数据类型包括本地向量、标注点、本地矩阵。

5.目前，MLlib 库默认采用皮尔森相关系数计算方法。

二、判断题

1.机器学习中的训练和预测过程可以看作人类的归纳和推测的过程。（×）

2.本地向量分为密集向量和稀疏向量，密集向量是由两个并列的数组（索引、值）支持，而稀疏向量是由 Double类型的数组支持。（×）

3.标注点是一种带有标签的本地向量，通常用于无监督学习算法中。（×）

4.逻辑回归又称为逻辑回归分析，是一种狭义的线性回归分析模型。（×）

5.目前，最为流行的推荐系统所应用的算法是协同过滤，协同过滤通常用于推荐系统，这项技术是为了填补关联矩阵的缺失项，从而实现推荐效果。（√）

三、选择题

1.下列选项中，对于机器学习的理解错误的是哪一项?（C）
A.机器学习是一种让计算机利用数据来进行各种工作的方法
B. 机器学习是研究如何使用机器人来模拟人类学习活动的一门学科
C.机器学习是一种使用计算机指令来进行各种工作的方法
D.机器学习就是让机器能像人一样有学习、理解、认识的能力

2.下列选项中，哪一项是不属于监督学习的方法?（A）
A. KMeans B.线性回归 C. SVM D.朴素贝叶斯

3.下列选项中，哪一项是最常见的评价分类器好坏的指标。（A）
Spark大数据分析与实战
一、填空题
1、Spark SQL 是Spark用来处理结构化数据的一个模块

2、Spark 要想很好地支持SQL，就需要完成解析、优化、执行三大过程

3、Spark SQL 作为分布式SQL查询引擎，让用户可以通过SQL、DataFrame API和Datasets API 3种方式实现对结构化数据的处理

4、Catalyst优化器在执行计划生成和优化工作时离不开它内部的五大组件，分别是SQLParse、Analyze、Optimizer、SparkPlanner和 CostModel。

5、Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽象结构，最终在Spark2.0版本被定义成Spark新特性。

二、判断题

1、Spark SQL的前身是 Shark，Shark最初是瑞士洛桑联邦理工学院（EPFL）的编程方法实验室研发的 Spark 生态系统的组件之一。（×）

2、Spark SQL与 Hive 不兼容。（×）

3、在Spark SQL中，若想要使用SQL 风格操作，则需要提前将 DataFrame注册成一张临时表。（√）

4、在Spark SQL中，可以利用反射机制来推断包含特定类型对象的 Schema，从而将已知数据结构的 RDD 转换成 DataFrame。（√）

5、Spark SQL可以通过JDBC从关系数据库中读取数据的方式创建 DataFrame，通过对 DataFrame 进行一系列的操作后，不可以将数据重新写入到关系数据库中。（×）

三、选择题

1、Spark SQL可以处理的数据源包括哪些?（D）
A.Hive 表 B.数据文件、Hive 表 C.数据文件、Hive 表、RDD
D.数据文件、Hive表、RDD、外部数据库

2、下列说法正确的是哪一项?（C）
A.Spark SQL的前身是 Hive B.DataFrame 其实就是 RDD
C. HiveContext继承了SqlContext D.HiveContext 只支持 SQL语法解析器

3、Spark SQL中，mode函数可以接收的参数有哪些?（A）
A.Overwrite、Append、Ignore、ErrorIfExists B. Overwrite、Ignore
C. Overwrite、Append、Ignore D. Append、Ignore、ErrorIfExists

HBase分布式数据库

一、填空题

1、HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式数据库。

2、HBase是构建在HDFS之上，并为 HBase提供了高可靠的底层存储支持。

3、HBase 是通过RPC下协议与客户端进行通信。

4、HBase 表的数据按照行键RowKey的字典序进行排列。

5、当 MemStore存储的数据达到一个阈值时，MemStore 里面的数据就会被flush到StoreFile 文件，这个阈值默认是128MB。

二、判断题

1、HBase 起源于 2006年 Google发表的 BigTable论文。（√）

2、HBase 是基于行进行存储的。（×）

3、HBase中，若有多个HMaster节点共存，则所有 HMaster都提供服务（×）

4、StoreFile底层是以HFile文件的格式保存在 HDFS上。（√）

5、在 HBase 中，往 HBase写数据的流程就是一个寻址的流程。（×）

三、选择题

1、下列选项中，哪个不属于 HBase的特点（B）
A.面向列 B.容量小 C.多版本 D.扩展性

2、下列选项中，HBase是将哪个作为其文件存储系统的（C）
A. MySQL B.GFS C. HDFS D. MongoDB

3、HBase官方版本不可以安装在什么操作系统上（D）
A. CentOS B. Ubuntu C. RedHat D. Windows

Kafka分布式发布订阅消息系统

一、填空题

1、Kafka的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。

2、Kafka的消息传递模式有点对点消息传递模式发布订阅消息传递模式。

3、Kafka集群是由生产者（Producer）、消息代理服务器（Broker Server)和***消费者（Consumer)***组成。

4、Kafka Streams是Apache Kafka 开源项目的一个流处理框架。

5、Kafka集群中消息的消费模型有两种，分别是推送模型（push）和拉取模型（pull）

二、判断题

1.Kafka是由Twitter软件基金会开发的一个开源流处理平台。（×）

2.Kafka是专门为分布式高吞吐量系统而设计开发的。（√）

3.Consumer是数据的生产者，Producer是数据的消费者。（×）

4.Kafka Streams是一套处理分析Kafka中存储数据的客户端类库，处理完的数据不可以重新写回Kafka，但可以发送给外部存储系统。（×）

5.在 Kafka 中，若想建立生产者和消费者互相通信，就必须提前创建一个“公共频道”，它就是主题（Topic）。（√）

三、选择题

1.下列选项中，哪个不是Kafka的优点？（C）
A.解耦 B.高吞吐量 C.高延迟 D.容错性

2.下列选项中，哪个选项是每个分区消息的唯一序列标识？（D）
A. Topic B. Partmon C.Broker D. Offset

3.下列选项中，哪个不属于消息系统？（D）
A. Kafka B. RabbitMQ C. ActiveMQ D. Zookeeper

Spark Streaming实时计算框架

一、填空题

1.目前，市场上常用的实时计算框架有Apache Spark Streaming、Apache Storm、
Apache Flink和Yahoo！S4。

2.Spark Streaming的特点有易用性、容错性和易整合性。

3.Spark Streaming支持从多种数据源获取数据，包括Kafka、Flume、Twitter、ZeroMQ、Kinesis、TCP Sockets 数据源。

4.Spark Streaming提供了一个高级抽象的流，即 DStream。

5.Spark Streaming中对DStream的转换操作会转变成对RDD的转换操作。

二、判断题

1、 Apache Spark Streaming是Apache公司非开源的实时计算框架。（×）

2、DStream的内部结构是由一系列连续的RDD组成，每个RDD都是一小段时间分隔开来的数据集。（√）

3、Spark Streaming中，不可以通过RDD的转换算子生成新的DStream。（×）

4、在Linux系统下执行nc-lk9999命令启动服务端且监听socket服务。（√）

5、在Spark Streaming中，DStream的输出操作是真正触发 DStream上所有转换操作进行计算。（√）

三、选择题

1.下列选项中，说法正确的是哪个?（B）

A. 窗口滑动时间间隔必须是批处理时间间隔的倍数

B.Kafka是 Spark Streaming的基础数据源
C.DStream 不可以通过外部数据源获取
D.reduce（func）是 DStream 的输出操作

2.关于 Spark Streaming，下列说法错误的是哪一项?（D）
A.Spark Streaming 是 Spark的核心子框架之一
B.Spark Streaming 具有可伸缩、高吞吐量、容错能力强等特点
C.Spark Streaming处理的数据源可以来自 Kafka
D.Spark Streaming不能和 Spark SQL、Mlib、GraphX无缝集成

3.DStream 的转换操作方法中，哪个方法可以直接调用RDD上的操作方法?（A）
A. transform(func) B. updateStateByKey(func)
C. countByKey() D.cogroup(otherStream,[numTasks])

原文链接

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...