___________学年 第____学期
___________课程 期末考试 试卷(A) 共 页 (闭卷考试)
适用学生:___________
___________ 学院___________专业____级____班 姓名___________学号___________
题目 | 一 | 二 | 三 | 四 | 总分 |
得分 | |||||
一.单选题:本大题共15小题,每小题2分,共30分。
1. 下列哪个不是大数据的特征?( )
A. Volume B. Variety C. Velocity D. Variance
2. 下列List的定义中不正确的是( )。
A. val number:List[Int] = 1::2::3::Nil B. val name:List[String] = "Tom"::("Jack"::("Lucy"::
Nil))
C.val list:String = List(“a”, “b”, “c”) D. val number:List[Int] = List(1, 2, 3, 4, 5)
3. 在图的创建过程中,哪个不是图的创建方法( )。
A. apply B. fromEdges C. fromVertexs D. fromEdgeTuples
4. 下列函数的定义中不正确的是( )。
A. def add(x:Int, y:Int):Int = {x + y} B.def minus(x:Int, y:Int) => {return x – y}
C. def addFun(x:Int)(y:Int) = x * y D. val add = (a:Double, b:Double) => a + b
5. Spark堆内内存中表示执行内存,主要用于存放计算过程中的临时数据,如执行Shuffle时占用的内存是( )。
A. Storage Memory B. Execution Memory C. User Memory D. Reserved Memory
6. 下列不是Spark的部署模式的是( )。
A. 单机式 B. 单机伪分布式 C. 列分布式 D. 完全分布式
7. 下列哪个不可以作为Spark Streaming的输入数据流?( )
A. Kafka B. Twitter C. TCP套接字 D. Openstack
8. 下列不是划窗操作重要参数是( )。
A. 批处理间隔 B. 窗口间隔 C. 滑动间隔 D. 输入流间隔
9. 下面的Scala语句能正确执行的是( )。
A. val a = 2; a = 3 B. var a = 2; a = 3
C. var a = 2; a = “3” D. val a = 2; a = “3”
10. 下面哪个端口不是 spark 自带服务的端口。( )
A.8080 B.4040 C.8090 D.18080
11. 关于广播变量,下面哪个是错误的。( )
A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS
12. Master 的 ElectedLeader 事件后做了哪些操作。( )
A. 通知 driver B.通知 worker C.注册 application D.直接 ALIVE
13. 下面哪个不是图内部存在的操作( )。
A. 图结构转换操作 B. 图关联操作 C. 图近邻聚合操作 D. 图划分操作
14. 下面哪个不是MLlib的特征选择方法( )。
A. VectoerSlicer B. KafSelector C. Rformula D. ChiSqSelector
15. 按照任务划分,下列不是机器学习模型的是( )。
A. 回归模型 B. 分类模型 C. 结构化学习模型 D. 结构化统计模型
二.填空题:本大题8小题,共10空,每空2分,共20分。
1. Spark的基本计算单元是____________________________。
2. Scala运行在________________之上,源代码通过scalac编译器编译成Java字节码,Scala兼容现有的Java程序。
3. 如果想把一列特征进行数值化,使得相应的特征索引化要使用________________方法。
4. 默认的存储级别是________________。
5. 在Spark运行架构中,以下________________组件负责任务控制。
6. Task 是运行在________________中 Executor 上的工作单元。
7. Scala使用两个关键字来声明变量:________________和________________。
8. Dstream的转换操作中,将RDD进行聚合的操作是________________。
三.简答题:本大题有5小题,每小题6分,共30分。
1. driver的功能是什么?
2. spark工作机制?
3. RDD机制?
4.Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?
四.程序题:共20分。
使用Spark编程对文件E:\\中的单词进行统计,完成程序中的代码。
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object SparkWordCountWithScala {
def main(args: Array[String]): Unit = {
val conf = new SparkConf()
//设置运行模式为local
1._____________________________
//设置任务名
conf.setAppName("WordCount")
//创建SparkCore的程序入口
val sc = new SparkContext(conf)
//读取文件生成RDD
val file: RDD[String] = sc.textFile("E:\\")
//把每一行数据按照“,”分割
2. _________________________________________
//让每一个单词都出现一次
3._________________________________________
//单词计数
4._________________________________________
//按照单词出现的次数降序排序
5._________________________________________
//将最终的结果进行保存
sortRdd.saveAsTextFile("E:\\result")
sc.stop()
}
___________学年 第____学期
___________课程 期末考试 试卷(B) 共 页 (闭卷考试)
适用学生:___________
___________ 学院___________专业____级____班 姓名conf___________学号___________
题目 | 一 | 二 | 三 | 四 | 总分 |
得分 | |||||
一.单选题:本大题共20小题,每小题2分,共40分。
1. 下列不属于Spark生态系统的是( )。
A. Spark Streaming B. Storm C. Shark SQL D. Spark R
2. 以下说法正确的是( )。
A. 数组中的元素都属于同一个数据类型 B. 默认情况下,Scala使用的是可变映射
C. List中不可以存放重复对象 D.Set中可以有重复对象且Set中元素是有序的
3. veryMode 不支持那种( )。
A.ZooKeeper B. FileSystem C. NONE D. Hadoop
4. 表达式“for(i <-1 to 3; j <- 1 to 3; if i != j)print((i + j) +" ")的”输出结果是( )。
A. 3 4 3 5 4 5 B. 1 2 3 4 5 6 C. 2 4 6 D.1 2 4 6
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论