南开大学2021年8月《大数据开发技术》作业考核试题及答案(参考)
1. Spark中DataFrame的(  )方法是进行条件查询
A.where
B.join
C.limit
D.apply
参考答案:A
2. 以下哪些是数据可视化时间线工具(  )
A.Echarts
B.Timetoast
C.Xtimeline
D.R
参考答案:BC
3. 程序是算法用某种程序设计语言的具体实现。(  )
A.错误
B.正确
参考答案:B
4. GraphX中(  )方法可以查询度数
A.degrees
B.degree
C.vertices
D.edges
参考答案:A
5. 最大效益优先是下列哪项的一种搜索方式?(  )
A.分支界限法
B.动态规划法
C.贪心法
D.回溯法
参考答案:A
6. 关系数据库的关键特性包括完善的事务机制和高效的查询机制。(  )
A.正确
B.错误
7. UMP系通过(  )来实现实现数据路由的基本功能
A.Controller服务器
B.Proxy服务器
C.愚公系统
D.Agent服务器
参考答案:B
8. MapReduce将输入文件切分成M个分片,Master将其中(  )个分片分给处于空闲状态的N 个Worker来处理。
A.M
B.N
C.M-1
D.N-1
参考答案:A
9. 备忘录方法是哪种算法的变形?(  )
A.分治法
B.动态规划法
C.贪心法
D.回溯法
参考答案:B
10. Spark中DataFrame的(  )方法是进行排序查询
C.select by
D.sort by
参考答案:A
11. 使用回溯法进行状态空间树裁剪分支时一般有两个标准:约束条件和目标函数的界,N皇后问题和0/1背包问题正好是两种不同的类型,其中同时使用约束条件和目标函数的界进行裁剪的是0/1背包问题,只使用约束条件进行裁剪的是N皇后问题。(  )
A.错误
B.正确
参考答案:B
12. Scala中合并两个数组的方法是(  )
C.append
参考答案:D
13. 数据集成(Data Integration)是将多个数据源中的数据合并存放到一个一致的数据存储中,数据源可以
包含多个数据库、数据立方体或一般文件。(  )
A.对
B.错
参考答案:A
14. Hbase采用(  )作为底层数据存储
A.HDFS
B.GFShbase的特性有哪些
C.Hbase
D.传统文件系统
参考答案:A
15. spark-submit配置项中(  )表示启动的executor数量
A.--num-executors NUM
B.--executor-memory MEM
C.--total-executor-cores NUM
D.--executor-coures NUM
参考答案:A
16. RDD是一个可读写的数据结构。(  )
T.对
F.错
参考答案:F
17. 以下哪个函数可以对RDD进行排序(  )
A.sortBy
B.filter
C.distinct
D.intersection
参考答案:A
18. RDD中join操作最后只返回两个RDD都存在的键的连接结果。(  )
参考答案:A
19. 图结构中如果任意两个顶点之间都存在有向边,那么称之为(  )
A.完全图
B.有向完全图
C.无向图
D.简单图
参考答案:B
20. 可使用(  ),(  ),(  )进行光滑。
A.最大值
B.箱中位数
C.箱边界
D.箱均值
参考答案:BCD
21. MLlib中用于线性回归算法的包主要有(  )
A.LinearRegressionWithSGD
B.RidgeRegressionWithSGD
C.LassoWithSGD
D.LeftRegression
参考答案:ABC
22. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法,其中不需要排序的是动态规划,需要排序的是回溯法,分支限界法。(  )
A.错误
B.正确
参考答案:B
23. 关于分布式并行编程,以下说法错误的是(  )。
A.“摩尔定律”,CPU性能大约每隔12个月翻一番
B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能
C.分布式程序运行在大规模计算机集上,可以并行执行大规模数据处理任务,从而获得海量的计算能力
D.谷歌公司最先提出了分布式并行编程模型MapReduce
参考答案:A
A.正确
B.错误
参考答案:A
25. BigTable采用(  )作为底层数据存储
A.HDFS
B.GFS
C.Hbase
D.传统文件系统
参考答案:B
26. DataFrame是一个分布式的Row对象的数据集合。(  )
A.正确
B.错误
参考答案:A
27. spark-submit配置项中(  )表示Driver程序使用的内存大小
A.--driver-memory MEM
B.--executor-memory MEM
C.--total-executor-cores NUM
D.--executor-coures NUM
参考答案:A
28. 聚类分析(Cluster analysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster)。(  )
A.对
B.错
参考答案:A
29. 动态规划算法的基本思想是将待求解问题分解成若干子问题,先求解子问题,然后从这些子问题的解得到原问题的解。(  )
A.错误
B.正确
参考答案:B
30. Scala列表方法中输出符号指定条件的所有元素的方法是(  )
A.drop

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。