软件工程师题库150_5月试题与答案
软件工程师题库150_5月试题与答案
1. Hadoop运行模式不包括() [单选题] *
A.分布式
B.中心版(正确答案)
C.单机版
D.伪分布式
2. 哪一个方法不在FileInputFormat类中(),不用考虑方法参数。 [单选题] *
A. addInputPath()
B. getPathStrings()
C. getSplits()
D. List()(正确答案)
3. HIVE与传统SQL数据库对比,下面描述不正确的是() [单选题] *
A. 对于查询语言:HIVE使用HQL,传统SQL数据库使用SQL
B. 对于数据存储:HIVE使用HDFS存储,传统SQL数据库使用本地磁盘
C. 最终执行者:HIVE使用MapReduce和Excutor执行,传统SQL数据库使用Excutor执行器(正确答案)
D. 执行延迟:HIVE属于高,传统SQL数据库属于低
4. Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是()[单选题] *
A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B.根据策略对数据块进行必要的复制或删除
C.当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D.文件系统允许有修改(正确答案)
5. Hive数据仓库和关系型数据库mysql的区别() *
A.Hive不支持事务而mysql支持事务
B.hive高延迟而mysql相对低延迟。(正确答案)
C.Hive不支持索引而mysql支持索引。(正确答案)
D.Hive的分区和mysql的分区都用表内字段。
6. 以下hive sql语法正确的是() [单选题] *
A.select * from a inner join b on a.id<>b.id
B.select * from a where a.id in (select id from b)
C.select sum(a.amt) as total from a al>20
D.select * from a inner join b on a.id=b.id(正确答案)
7. 有关HIVE中ORDER BY 和 SORT BY 用法正确的是( ) [单选题] *
SORT BY 用于分组汇总
SORT BY 用于局部排序,ORDER BY用于全局排序(正确答案)
使用完全一致
其他说法都不对
8. 在hive中下列哪些命令可以实现去重( ) [单选题] *
distinct(正确答案)
group by
row_number
having
9. 如果需要配置Apache版本的hadoop的完全分布式,需要更改哪些xml配置文件( ) *
l(正确答案)
l(正确答案)
l(正确答案)
10. 下列哪些参数可以影响切片数量?( ) *
MinSize(正确答案)
MaxSize(正确答案)
blockSize(正确答案)
premisson
答案解析:默认切片公式
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M 11. Yarn的调度几种方式( ) [单选题] *
FIFO Scheduler
Capacity Scheduler
FairScheduler
以上都是(正确答案)
12. 以下哪一项不属于 YARN的进程是() [单选题] *
A.ResourceManager
B.NodeManager
C.MRAppMaster
D.Master(正确答案)
13. HDFS2.X默认 Block size的大小是() [单选题] *
A 32MB
B 64MB
D.256M
答案解析:HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而,传输一个由多个块组成的文件的时间取决于磁盘传输速率。
如果寻址时间约为10ms,而传输速率为100MB/s,为了使寻址时间仅占传输时间的1%,我们要将块大小设置约为100MB。默认的块大小128MB。
块的大小:10ms*100*100M/s = 100M
14. 下列关于 MapReduce说法不正确的是() [单选题] *
A. MapReduce是一种计算框架
B. MapReduce来源于 google的学术论文
C. MapReduce程序只能用java语言编写(正确答案)
D. MapReduce隐藏了并行计算的细节,方便使用
15. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性高可扩展性、高吞吐率等特征,适合的读写任务是() [单选题] *
A.一次写入,少次读
B.多次写入,少次读
C.多次写入,多次读
D.一次写入,多次读(正确答案)
16. HBase依靠存储底层数据() [单选题] *
A. HDFS(正确答案)
B. Hadoop
C.Memory
D. MapReduce
17. 关于 Secondary Name Node下面哪项是正确的() [单选题] *
A.它是 Name Node的热备
B.它对内存没有要求
C.它的目的是帮助 NameNode合并编辑日志,减少 Name Node启动时间(正确答案)
D. SecondaryName Node应与 Name Node部署到一个节点
18. 大数据的特点不包括下面哪一项() [单选题] *
A.巨大的数据量
B.多结构化数据
C.增长速度快
D.价值密度高(正确答案)
19. 配置 Hadoop时, JAVA_HOME包含在哪一个配置文件中() [单选题] *
A. l
B.hadoop-env.sh(正确答案)
C.hadoop-site. xml
D.configuration.xsl
20. 出现在 datanode的 VERSI0N文件格式中但不出现在 namenode的VRSI0N文件格式中的是() [单选题] *
A.cluster ID
B. storage ID(正确答案)
C. storage Typehbase属于什么数据库
D. layoutVersion
答案解析:namenode的VERSION
namespaceID=1778616660
clusterID=CID-bc165781-d10a-46b2-9b6f-3beb1d988fe0
cTime=155********96
storageType=NAME_NODE
blockpoolID=BP-274621862-192.168.1.111-155********96
layoutVersion=-63
storageType属性说明该存储目录包含的是namenode的数据结构。layoutVersion是一个负整数。通常只有HDFS增加新特性时才会更新这个版本号。datanode的VERSION
storageID=DS-1b998a1d-71a3-43d5-82dc-c0ff3294921b
clusterID=CID-1f2bf8d1-5ad2-4202-af1c-6713ab381175
cTime=0
datanodeUuid=970b2daf-63b8-4e17-a514-d8*******165
storageType=DATA_NODE
layoutVersion=-56
21. YARN中的资源是由哪个进程管理() [单选题] *
A.ResourceManager(正确答案)
B.NodeManager
C.client
D.MRAppMaster
22. Mapreduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和 Reduce过程中充当键或值,以下说法错误的是() [单选题] *
A.实现 Writable接口的类是值
B.实现 WritableComparable接口的类可以是值或键
C. Hadoop的基本类型Text并不实现 Writable Comparable接口(正确答案)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。