spark基础知识选择、判断、简答题。**
# spark相关题⽬
**
1、
持久化RDD的存储级别中,将RDD分区全部存储到磁盘上的存储级别是()。
A、MEMORY_ONLY
B、MEMORY_AND_DISK
C、DISK_ONLY
D、MEMORY_ONLY_SER
参考答案:
C
答案解析:
暂⽆解析
2、
当MemStore存储的数据达到⼀个阀值()时,数据就会被进⾏flush操作,将数据写⼊到StoreFile⽂件。
A、64M
B、128M
C、256M
D、512M
参考答案:
B
答案解析:
暂⽆解析
3、
下列选项中,不是spark ⾃带服务的端⼝是()。
A、8080
B、4040
C、8090
D、18080
参考答案:
C
答案解析:
暂⽆解析
4、
下列选项中,⽤于提交和监控Task任务的是()。
A、DAG Scheduler
B、Task Scheduler
C、Cluster Manager
D、SparkContext
参考答案:
B
答案解析:
暂⽆解析
5、
下列选项中,⽤于获取指定⾏或列的数据的HBase Shell命令是()。
A、create
B、describe
C、count
D、get
参考答案:
D
答案解析:
暂⽆解析
6、
spark 1.4版本的最⼤变化是()。
A、spark sql Release 版本
B、引⼊ Spark R
C、DataFrame
D、⽀持动态资源分配
参考答案:
B
B
答案解析:
spark 1.4版本的最⼤变化是引⼊ Spark R。
7、
下列选项,不属于集管理器的有()。
A、Hadoop Yarn
B、Apache Mesos
C、Local
D、Spark⾃带的独⽴调度器
参考答案:
C
答案解析:
暂⽆解析
8、
下列选项中,不属于Spark⾃带的服务端⼝有()。
A、8080
B、4040
C、8090
D、18080
参考答案:
C
答案解析:
暂⽆解析
9、
SaveMode属于()类型。
A、整数类型
B、浮点类型
C、枚举类型
D、字符串类型
参考答案:
C
答案解析:
暂⽆解析
10、
Spark集的任务是由()进⾏调度的。
A、驱动器
B、执⾏器
C、集管理器
D、应⽤管理器
参考答案:
A
答案解析:
暂⽆解析
11、
在RDD的转换算⼦中,主要⽤于(Key,Value)键值对的数据集,将具有相同Key的Value进⾏分组,会返回⼀个新的(Key,Iterable)形式的数据集的转换算⼦是()。
A、filter()
B、groupByKey()
C、reduceByKey()
D、map()
参考答案:
B
答案解析:
暂⽆解析
12、
Spark计算框架在分布式环境下对数据处理后的结果进⾏随机的、实时的存储归功于()。
A、Hive
B、Oracle
C、Mongodb
D、HBase
参考答案:
D
答案解析:
暂⽆解析
13、
在RDD的⾏动算⼦中,⽤于⽤于返回数组的第⼀个元素的⾏动算⼦是()。
在RDD的⾏动算⼦中,⽤于⽤于返回数组的第⼀个元素的⾏动算⼦是()。
A、first()
B、count()
C、take(n)
D、reduce()
参考答案:
A
答案解析:
暂⽆解析
14、
在Spark2.0版本之前,Spark SQL中创建DataFrame和执⾏SQL的⼊⼝是()。
A、HiveContext
B、SparkSession
C、SQLContext
D、SparkContext
参考答案:
C
答案解析:
暂⽆解析
15、
在DataFrame的操作中,⽤于实现对列名进⾏重命名的操作是()。
A、select()
B、show()
C、filter()
D、map()
参考答案:
A
答案解析:
暂⽆解析
16、
Scala是⼀种纯粹的⾯向对象语⾔,每⼀个值都是()。
A、类
B、接⼝
C、特质
D、对象
参考答案:
D
答案解析:
Scala是⼀种纯粹的⾯向对象语⾔,每⼀个值都是对象。
17、
在Spark运⾏过程中,每个Job可以划分为更⼩的Task集合,每组任务被称为()。
A、DAG
B、Block
C、Application
D、Stage
参考答案:
D
答案解析:
暂⽆解析
18、
Spark中RDD的计算函数的基本单位是()。
A、分区
B、数据块
C、Task
D、Job
参考答案:
A
答案解析:
暂⽆解析
19、
RDD在Spark中运⾏时,将作业的DAG划分成不同的Stage的阶段是()。
A、RDD Objects
B、DAGScheduler
C、TaskScheduler
D、Worker
参考答案:
参考答案:
B
答案解析:
暂⽆解析
20、
DataFrame的结构类似于传统数据库的()。
A、⼀维表格
B、⼆维表格
C、三维表格
D、四维表格
参考答案:
B
答案解析:
DataFrame的结构类似于传统数据库的⼆维表格。
21、
下列选项中,哪个不是Kafka的优点。
A、解耦
B、⾼吞吐量
C、⾼延迟
D、容错性
参考答案:
C
答案解析:
Kafka具有低延迟的特性
22、
启动HBase集的命令是()。
A、start-dfs.sh
B、zkServer.sh start
C、start-hbase.sh
D、start-yarn.sh
参考答案:
C
答案解析:
暂⽆解析
23、
Task是运⾏()中Executor的⼯作单元。
A、Driver program
B、spark master
C、worker node
D、Cluster manager
参考答案:
C
答案解析:
暂⽆解析
24、
Scala中,数组的遍历⽅式不包含()。
A、for循环遍历
B、while循环遍历
C、do...while循环遍历
D、do...for循环遍历
参考答案:
D
答案解析:
数组的遍历有三种⽅式,分别是for循环遍历、while循环遍历以及do...while循环遍历。
25、
下列选项中,对于机器学习的理解错误的是()。
A、机器学习是⼀种让计算机利⽤数据来进⾏各种⼯作的⽅法。
B、机器学习是研究如何使⽤机器⼈来模拟⼈类学习活动的⼀门学科。
C、机器学习是⼀种使⽤计算机指令来进⾏各种⼯作的⽅法。
D、机器学习就是让机器能像⼈⼀样的有学习、理解、认识的能⼒。
参考答案:
C
答案解析:
暂⽆解析
26、
下列说法中,关于Scala说法正确的是()。
下列说法中,关于Scala说法正确的是()。
A、Scala是由Martin Odersky(马丁•奥德斯基)创建
B、Scala语⾔和Java语⾔的作⽤是相同的
C、Scala是⾯向过程编程的语⾔
D、Scala是由杰弗逊创建
参考答案:
A
答案解析:
Scala于2001年由洛桑联邦理⼯学院(EPFL)的编程⽅法实验室研发,它由Martin Odersky(马丁·奥德斯基)创建。
27、
下列选项中,说法正确的是哪个?
A、窗⼝滑动时间间隔必须是批处理时间间隔的倍数。
B、Kafka是Spark Streaming的基础数据源。
C、DStream不可以通过外部数据源获取。
D、reduce(func)是DStream的输出操作。
参考答案:
B
scala不是内部或外部命令
答案解析:
暂⽆解析
28、
使⽤Maven Projects⼯具,双击()选项,即可⾃动将项⽬打成Jar包。
A、clean
B、test
C、deploy
D、package
参考答案:
D
答案解析:
暂⽆解析
29、
Client与HBase进⾏通信是通过()。
A、RPC协议
B、TCP协议
C、HTTP协议
D、UDP协议
参考答案:
A
答案解析:
暂⽆解析
30、
Spark SQL的前⾝是()。
A、SQL
B、Shark
C、Spark RDD
D、MapReduce
参考答案:
B
答案解析:
Spark SQL的前⾝是Shark。
31、
如果⼀个训练好的模型在测试集上有100%的准确率,这是不是意味着在⼀个新的数据集上,也会有同样好的表现?
A、是的,这说明这个模型的范化能⼒已经⾜以⽀持新的数据集合了
B、不对,依然后其他因素模型没有考虑到,⽐如噪⾳数据。
参考答案:
B
答案解析:
没有⼀个模型是可以总是适应新数据的。我们不可能可到100%准确率。
32、
下列选项中,可以⽤于退出Spark-Shell客户端的命令是()。
A、:quit
B、:wq
C、:q
D、:exit
参考答案:
A
答案解析:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论