大数据分布并行处理试题及答案
RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,只能通过文件创建。 [判断题]
对 |
错(正确答案) |
spark中的map和flatmap算子的区别是flatmap可以返回多条元素 [判断题]
对(正确答案) |
错 |
下面哪个算子容易导致driver端内存溢出? [单选题]
map |
count |
collect(正确答案) |
take |
哪一种持久化策略表示只存储到内存,并且不序列化。 [单选题]
MEMORY_ONLY(正确答案) |
cache() |
MEMORY_AND_DISK |
MEMORY_ONLY_SER |
spark中的广播变量可以保证每个Executor内部只保存1份变量数据。 [判断题]
对 |
错(正确答案) |
spark中在划分Stage的时候,遇到窄依赖就会划分出前后两个Stage。 [判断题]
对 |
错(正确答案) |
spark中的持久化,只是将数据保存在内存中或者本地磁盘文件中,RDD的lineage(血缘关系)是不变的。 [判断题]
对(正确答案) |
错 |
HBase属于基于键值对类型的NoSQL数据库。 [判断题]
对(正确答案) |
错 |
针对HBase的应用场景的介绍,错误的是: [单选题]
适合半结构和非结构数据 |
适合存储记录稀疏的数据 |
适合存储多版本数据 |
适合海量数据分析(正确答案) |
HBase中不支持数字和字符串数据类型。 [判断题]
对(正确答案) |
错 |
HBase中,每一行数据中的Rowkey字段不是必须的,可以为null。 [判断题]
对 |
错(正确答案) |
HBase中在建表的时候,列族必须指定,并且后期无法修改。 [判断题]
对 |
错(正确答案) |
HBase中,针对具有多个历史版本数据的字段,会按照时间戳正序排序。 [判断题]
对 |
错(正确答案) |
HBase中的数据是按照Rowkey正序排序存储的。 [判断题]
对(正确答案)hadoop分布式集搭建 |
错 |
向HBase的表t1中添加数据,写法正确的是: [单选题]
put 't1','rowkey1','info','abc' |
put 't1','rowkey1','info','age:abc' |
put 't1','rowkey1','level:abc','age:xyz' |
put 't1','rowkey1','level:abc','xyz'(正确答案) |
HBase中,如果一个列族中如果有3列,那么这3列会分到几个文件中存储? [单选题]
1(正确答案) |
2 |
3 |
4 |
HRegionServer包含了HLog和? [单选题]
HRegion(正确答案) |
HMaster |
HDFS |
Data |
HStore包含两部分: StoreFile和? [单选题]
HFile |
HRegion |
HMaster |
MemStore(正确答案) |
minor合并时会忽略之前标记为删除状态的数据。 [判断题]
对 |
错(正确答案) |
HBase中,若MemStore中的数据有丢失,则可以从HLog上恢复。 [判断题]
对(正确答案) |
错 |
HBase中一张表中包含以下几个Region: [10,20],[20,30],[30, +∞],那么222将属于Region [30,+ ∞] 。() [单选题] *
A、对 |
B、错(正确答案) |
下列哪个不是大数据的特征? [单选题] *
A:数据量大 |
B:数据类型多 |
C:价值密度低 |
D:安全性要求高(正确答案) |
E:处理速度快 |
大数据带来的主要挑战不包括哪一个: [单选题] *
A:对现有数据库的挑战 |
B:对实时性的技术挑战 |
C:对数据中心和运维团队的挑战 |
D:对成本的挑战(正确答案) |
下列关于hadoop的描述哪个是正确的: [单选题] *
A:Hadoop的图标是一个黄小鸭子; |
B:Hadoop是由韩国人研发的; |
C:CDH是hadoop的其中一个发行版本;(正确答案) |
D:所有的Hadoop发行版本都是免费的。 |
以下哪个不属于hadoop的核心构成 [单选题] *
A:HDFS |
B:MapReduce |
C:Spark(正确答案) |
D:YARN |
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论