南开大学 2022 年 9 月《大数据开辟技术》作业考核试题及答案参考
1. 如果 numPartitions 是分区个数,那末 Spark 每一个 RDD 的分区 ID 范围是( )
A.[0,numPartitions]
B.[0,numPartitions-1]
C.[1,numPartitions-1]
D.[1,numPartitions]
参考答案: B
2. MapReduce 设计的一个理念就是( ),因为挪移数据需要大量的网络传输开
销。
A.数据向计算靠拢
B.计算向数据靠拢
C.计算向网络靠拢
D.计算与数据并行
参考答案: B
3. Scala 函数组合器中 flatmap 结合了map 和 flatten 的功能,接收一个可以处 理嵌套列表的函数,然后把返回结果连接起来。 ( )
A.正确
B.错误
参考答案: A
4. Spark 中 DataFrame 的( )方法是进行分组查询
A.order by
B.group by
C.select by
D.sort by
参考答案: B
5. 实现大整数的乘法是利用 ( )的算法。
A.贪心法
B.动态规划法
C.分治策略
D.回溯法
参考答案: C第一范式正则化不能产生稀疏解
6. Scala 中数组的第一个元素索引为 1。 ( )
A.正确
B.错误
参考答案: B
7. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数。 ( )
A.错误
B.正确
参考答案: B
8. 以深度优先方式系统搜索问题解的算法称为回溯法。 ( )
A.错误
B.正确
参考答案: B
9. 以下哪种数据库适合于批量数据处理和即席查询( )
A.MySQL
B.Oracle
C.Hbase
D.NosSQL
参考答案: C
10. 以下哪个不是 Scala 的数据类型( )
A.Int
B.Short Int
C.Long
D.Any
11. 以下哪个方法可以创建 RDD( )
A.parallelize
B.makeRDD
C.textFile
D. loadFile
参考答案: ABC
12. Scala 列表中 last 返回一个列表,包含除了第一个元素之外的其他元素。 ( )
T.对
F.错
参考答案: F
13. ( )可解决 HDFS 中名称节点运行期间 EditLog 不断变大的问题 A.NameNode
B.SecondaryNameNode
C.DataNode
D.Block
参考答案: B
14. 分支限界法与回溯法的求解目标相同。 ( )
A.错误
B.正确
参考答案: A
15. Scala 列表与数组非常相似,列表的所有元素可具有不同的类型。 ( )
T.对
F.错
参考答案: F
16. 内存级分析合用于总数据量在集内存的最大级别以内的情况,使用内部数据 库技术,适合实时业务分析需求。 ( )
A.对
B.错
参考答案: A
17. RDD 的 mapPartitions 操作会导致 Partitions 数量的变化。 ( )
A.正确
B.错误
参考答案: B
18. Scala 中合并两个数组的方法是( )
A. line
B.add
C.append
D.concat
参考答案: D
19. ( )是 Spark 的数据挖掘算法库
A.Spark Core
B.BlinkDB
C.GraphX
D.Mllib
参考答案: D
20. ( )是 Microsoft Office 的核心组件。
A.SQL
B.WORD
C.PPT
D.EXCEL
21. PairRDD 中 ( )函数可以进行分组
A.mapValues
B.groupBy
C.groupByKey
D.reduceByKey
参考答案: BC
22. 以下属于 Hadoop 的安装方式的有( )。
A.单机模式
B.多机模式
C.分布式模式
D.并行模式
E.伪分布式模式
参考答案: ACE
23. 下面哪种函数是回溯法中为避免无效搜索采取的策略?( )
A.递归函数
B.剪枝函数
C.随机数函数
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论