第一章测试
1.与MapReduce相比,Spark更适合处理以下哪种类型的任务( )
A:较少迭代次数的短任务
B:较多迭代次数的长任务
C:较少迭代次数的长任务
D:较多迭代次数的短任务
答案:D
2.Standalone模式下配置Spark集时,master节点的工作端口号需要在conf文件夹下的哪个文件指明( )
A:regionserver
f
C:spark-env.sh
D:slaves
答案:C
3.以下关于SPARK中的spark context,描述错误的是:( )
A:可以控制dagsheduler组件
B:控制整个application的生命周期
C:SparkContext为Spark的主要入口点
D:可以控制task scheduler组件
答案:B
4.以下对Spark中Work的主要工作描述错误的是( )
A:不会运行业务逻辑代码
B:会运行业务逻辑代码
C:管理当前节点内存
D:接收master分配过来的资源指令
答案:B
5.配置Standalone模式下的Spark集,Worker节点需要在conf文件夹下的哪个文件中指明( )
A:spark-env.sh
B:regionserver
f
D:slaves
答案:D
6.Spark支持的分布式部署方式中哪个是错误的( )
A:standalone
B:Spark on local
C:spark on YARN
D:spark on mesos
答案:B
7.Spark单机伪分布式模式,它的特点是在一台节点上既有Master服务,又有Worker服务( )
A:对
B:错
答案:A
8.在部署Spark独立模式时,配置spark内部通信的端口为( )
A:16010
B:7077
C:9870
D:7070
答案:B
9.在部署Spark独立模式时,配置spark的web端口为( )
A:4040
B:9870
C:7077
D:8080
答案:C
10.Spark的bin目录是spark运行脚本目录,该目录中包含了加载spark的配置信息,提交作业等执行命令的脚本( )
A:错
B:对
答案:B
第二章测试
11.valrdd=sc.parallelize(1 to 10).filter(_%2== llect上述代码的执行结果为( )
A:Array(1, 3, 5,7,9)
B:Array(1,2,3,4,5,6,7,8,9,10)
C:Array(1,10)
D:Array(2, 4, 6, 8, 10)
答案:D
12.下面哪个操作是窄依赖( )
A:group
B:join
C:filter
D:sort
答案:C
13.下面哪个操作肯定是宽依赖( )
A:flatMap
B:map
C:reduceByKey
D:sample
答案:C
14.以下操作中,哪个不是Spark RDD编程中的操作。( )
A:getLastOne()
B:reduceByKey(func)
C:reduce()
D:filter()
答案:A
15.val words = Array (“one”, “two”, “two”, “three”, “three”,“three”)val wordPairsRDD = sc.parallelize(words).map(word => (word,1) )wordCountsWithReduce = duceByKey(+)上述语句的执行结果wordCountsWithReduce 中包含的元素是( )。
A:(“one”, 1), (“two”,2), (“three”,2)
B:(“one”, 1),(“two”,2), (“three”, 1)
C:(“one”,3), (“two”,2), (“three”, 1)
D:(“one”,1), (“two”,2),(“three”,3)
答案:D
16.有一个键值对RDD,名称为pairRDD,包含4个元素,分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),则pairRDD.keys操作得到的 RDD中所包含的元素是()。
A:(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1)
B:(”Hadoop”,1),(”Spark”,1),(”Hive”,1)
C:”Hadoop”,”Spark”,”Hive”
D:”Hadoop”,”Spark”,”Hive”,”Spark”
答案:B
17.有一个RDD,名称为pairRDD,包含4个元素,分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),则pairRDD.values操作得到的RDD中所包含的元素是( ) 。
A:4
B:1,1,1,l
C:”Hadoop”,1,”Spark”,1scala不是内部或外部命令
D:(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1)
答案:B
18.有一个键值对 RDD,名称为pairRDD,包含4个元素,分别是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),则pairRDD. mapValues(x => x+1)操作得到的RDD
中所包含的元素是( ) 。
A:(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1)
B:(“Hadoop”,2)、(“Spark”,2)、(“Hive”,2)和(“Spark”,2)
C:1,1,1,1
D:2,2,2,2
答案:B
19.RDD操作包括哪两种类型。( )
A:分组(GroupBy)
B:行动(Action)
C:连接(Join)
D:转换(Transformation)
答案:BD
20.以下操作中,哪些是行动((Action)操作。( )
A:map()
B:groupByKey ()
C:collect()
D:reduce()
答案:CD
第三章测试
21.SparkSession内部封装了SparkContext,所以底层计算还是由SparkContext完成的。( )
A:对
B:错
答案:A
22.DataFrame的sort方法可以按照多个字段对数据进行排序。( )
A:错
B:对
答案:B
23.Spark SQL支持从哪些格式的外部结构化数据文件中读取数据创建DataFrame。( )
A:csv
B:txt
C:parquet
D:json
答案:ABCD
24.DataFrame的show()方法默认展示多少条数据( )
A:30
B:40
C:10
D:20
答案:D

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。