南开大学22春“物联网工程”《大数据开发技术(二)》期末考试高频考点版(带答案)
一.综合考核(共50题)
1.
Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存。
A.print
B.saveAsTextFiles
C.saveAsObjectFiles
D.saveAsHadoopFiles
参考答案:D
2.
GraphX中Edge边对象存有()字段
A.srcId
B.dstId
C.attr
D.val
参考答案:ABC
3.
如果numPartitions是分区个数,那么Spark每个RDD的分区ID范围是()。
A.[0,numPartitions]
B.[0,numPartitions-1]
C.[1,numPartitions-1]
D.[1,numPartitions]
参考答案:B
4.
MLlib中进行数据标准化的方式有()
A.Normalizer
B.Standard
C.StandardScaleer
D.MinMaxScaler
参考答案:ACD
5.
Spark GraphX中类Graph的joinVertices方法可以()
A.收集邻居顶点的顶点Id和顶点属性
B.收集邻居顶点的顶点Id
C.向指定顶点发送信息并聚合信息
D.将顶点信息更新到图中
参考答案:D
6.
Scala列表方法中返回所有元素,除了最后一个的方法是()。
A.drop
B.head
C.filter
D.init
参考答案:D
7.
Mllib中线性会馆算法中的参数reParam表示()
A.要运行的迭代次数
B.梯度下降的步长
C.是否给数据加干扰特征或者偏差特征
D.Lasso和ridge的正规化参数
参考答案:D
8.
以下哪个方法可以创建RDD()
A.parallelize
B.makeRDD
C.textFile
D.loadFile
参考答案:ABC
9.
PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。()
A.正确
B.错误
参考答案:A
10.
Spark Streaming支持实时流式数据,包括()。
A.Web服务器日志文件
B.社交网络数据
C.实时交易数据
D.类似Kafka的信息数据
参考答案:ABCD
11.
以下哪个函数可以对RDD进行去重()
A.sortBy
B.filter
C.distinct
D.intersection
参考答案:C
12.
Spark DataFrame中()方法可以返回一个List
A.collect
B.take
C.takeAsList
D.collectAsList
参考答案:CD
13.
Spark创建DataFrame对象方式有()
A.结构化数据文件
B.外部数据库
C.RDD
D.Hive中的表
参考答案:ABCD
14.
RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。()
A.正确
B.错误
参考答案:B
15.
Mllib中线性会馆算法中的参数reParam默认值是()
参考答案:1
16.
Spark SQL可以通过()方法加载json文件为DataFrame
A.format
B.json
C.get
D.read
参考答案:AB
17.
图的结构通常表示为:G(V,E),其中,E是图G中()
A.顶点
B.顶点的集合
C.边
D.边的集合
参考答案:D正则化是为了防止
18.
图的结构通常表示为:G(V,E),其中,G表示()
A.图
B.子图
C.顶点
D.边
参考答案:A
19.
Scala函数组合器可以过滤移除使得传入的函数的返回值为false的元素的方法是()
A.filter
B.flatten
C.grouby
D.flatmap
参考答案:A
20.
()是Spark的数据挖掘算法库
A.Spark Core
B.BlinkDB
C.GraphX
D.Mllib
参考答案:D
21.
Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。()
A.正确
B.错误
参考答案:B
22.
GraphX中()方法可以查询顶点个数

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。