考试科目:Hadoop技术原理    考试方式:笔试  考试时量: 90分钟
题号
总分
得分
一、单选题(2×20=40分)
1.MapReduce是一种()模型
A:  面向对象模型
B:  编程模型
C:  MVC模型
D:  面向切面模型
2.以下关于MapReduce说话错误的是?
A:  Map和reduce是他们的主要思想
B:  用于大规模数据集的串行运算
C:  极大的方便了编程人员不会分布式编程
D:  都是从函数式和矢量编程语言借来的特性
3.MapReduce的<key,value>存储模型能够存储什么数据?
A:  文件数据
B:  二进制
C:  字符串
D:  任意格式
4.为销售报表展示开发一个MapReduce作业,Mapper输入数据的Key是年份(IntWritable),Value表示商品标识(Text)。下列哪一项决定该Mapper的数据类型?
A:  JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClass
B:  HADOOP_MAP_DATATYPES环境变量
C:  随作业一起提交的l文件
D:  InputFormat格式类
5.关于 SecondaryNameNode 哪项是正确的?
A:  它是 NameNode 的热备
B:  它对内存没有要求
C:  它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
D:  SecondaryNameNode 应与 NameNode 部署到一个节点
6.在Hadoop MapReduce框架中,任何值类型
A:  需要实现Writable接口
B:  需要实现Comparable 接口
C:  需要实现WritableComparable接口
D:  不需要实现任何接口
7.以下四个Hadoop预定义的Mapper实现类的描述错误的是
A:  IdentityMapper实现Mapper,将输入直接映射到输出
B:  InverseMapper实现Mapper,反转键/值对
C:  RegexMapper实现Mapper,为每个常规表达式的匹配项生成一个(match, 1)对
D:  TokenCountMapper实现Mapper,当输入的值为分词时,生成(taken, 1)对
8.MapReduce框架提供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法错误的是
A:  实现Writable接口的类是值
B:  实现WritableComparable接口的类可以是值或键
C:  Hadoop的基本类型Text并不实现WritableComparable接口
D:  键和值的数据类型可以超出Hadoop自身支持的基本类型
9.下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是
A:  FSDataInputStream扩展了DataInputStream以支持随机读
B:  为实现细粒度并行,输入分片(Input Split)应该越小越好
C:  一台机器可能被指派从输入文件的任意位置开始处理一个分片
D:  输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
10.有关MapReduce的输入输出,说法错误的是
A:  链接多个MapReduce作业时,序列文件是首选格式
B:  FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目和大小任意定义
C:  想完全禁止输出,可以使用NullOutputFormat
D:  每个reduce需将它的输出写入自己的文件中,输出无需分片
11.以下哪个方法不是mapper类中的重写方法
A:  map()方法
B:  run()f方法
C:  setup方法
D:  clean()方法
12.关于HDFS的文件写入,正确的是
A:  支持多用户对同一个文件的写操作
B:  用户可以在文件的任意位置进行修改
C:  默认将文件复制成三份存放
D:  复制的文件默认都存在同一机架上
13.哪种场景适用于HDFS
A:  存储大量小文件
B:  实时读取
C:  需经常修改数据
D:  流式读取
14.哪个不是HDFS的特点?
A:  高容错
B:  高吞吐量
C:  低延迟读取
D:  大文件存储
15.哪个模块负责HDFS数据的存储?
A:  NameNode
B:  DataNode
C:  ZooKeeper
D:  JobTracker
16.哪个场景适合使用HDFS?
A:  大量小文件
B:  大文件存储
C:  随机写入
D:  低延迟读取
17.Hadoop2.0中HDFS 默认 Block Size
A:  32M
B:  64M
C:  128M
D:  256M
18.HDFS的Block默认保存几份?
A:  3
B:  2
C:  1
D:  不确定
19.启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager的命令是()
A:  start-yarn.sh
B:  start-all.sh
C:  start-dfs.sh
D:  hadoop-daemons.sh
20.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?
A:  一次写入,少次读
B:  多次写入,少次读
C:  多次写入,多次读
D:  一次写入,多次读
二、多选题(2×5=10分)
1.Hadoop生态圈子项目非常的庞大,下列属于Hadoop子项目的是()【选三项】
A:  Hive
B:  Hdfs
C:  Zookeeper
D:  Spark
2.HDNF的作用是负责对数据的分布式储存,其内部对象包括()【选三项】
A:  Client
B:  NameNode
C:  DataBases
D:  Secondary NameNode
3.每次格式化Hadoop的文件系统都会删除哪两个文件中的数据()【选两项】
A:  dfs.namenode.name.dir
B:  dfs.data.name.dir
C:  dfs.datanode.data.dir
D:  dfs.namenode.data.dir
4. RPC是分布计算中C/S模型的一个应用实例,对于好hadoop而言,它有以下哪些特点()【选三项】
A:  重用性,由于hadoop的特点rpc可以一直使用。
B:  透明性,远程调用其他机器上的程序,对用户来说就像调用本地的方法一样
C:  高性能,rpc server能够处理多个来自client的请求。
D:  可控性,hadoop rpc实现了自定义的rpc框架。
5.关于ZooKeeper的配置参数,下列说明正确的是()【选两项】
A:  tickTime:服务器与客户端之间的心跳时间间隔。
B:  initLimit:设定了所有跟随者与领导者进行连接并同步的时间范围。
C:  syncLimit:允许一个跟随者与领导者进行的交换数据时间。
D:  dataDir:hadoop的数据目录。
三、填空题(2×10 =20分)
1.Znode有两种节点,分别是:              。
2.Hadoop默认开设HDFS文件系统端口号()和监控Yarn集端口号():                  。
3.Hive是建立在HDFS上的数据仓库、它能够对数据进行数据           
4.              通过      机制互相通信。
四、简答题(30 分)
1.  分别举例什么情况要使用 combiner,什么情况不使用?(10分)
2. 参考下列M/R系统的场景:hdfs块大小为64MB,输入类为FileInputFormat,有3个文件的大小分别为64KB, 65MB, 127MB?(10分)
3. Hadoop框架中文件拆分是怎么调用的?(10分)
《Hadoop技术原理》参考答案及评分标准
二、mvc实例单选题(2×20=40分)
1.B
2.B
3.D
4.D
5.C
6.A
7.B
8.C
9.B
10.B
11.D
12.C
13.D
14.C
15.B
16.B
17.C
18.A
19.B
20.D
三、多选题(2×5=10分)
1.ACD
2.ABD
3.AC
4.BCD
5.AB
三、填空题(2×10 =20分)
5.Znode有两种节点,分别是()、():  永久节点    临时节点    。
6.Hadoop默认开设HDFS文件系统端口号()和监控Yarn集端口号():  50070    8080    。
7.Hive是建立在HDFS上的数据仓库、它能够对数据进行数据提取  转换  加载 
8.  NameNode    DataNode  通过  心跳检测  机制互相通信。
四、简答题(30 分)
1.  分别举例什么情况要使用 combiner,什么情况不使用?(10分)
求平均数的时候就不需要用combiner,因为不会减少reduce执行数量。在其他的时候,可以依据情况,使用combiner,来减少map的输出数量,减少拷贝到reduce的文件,从而减轻reduce的压力,节省网络开销,提升执行效率。
4. 参考下列M/R系统的场景:hdfs块大小为64MB,输入类为FileInputFormat,有3个文件的大小分别为64KB, 65MB, 127MB?(10分)
会产生多少个maptask  4个    65M这个文件只有一个切片《原因参见笔记汇总TextInputformat源码分析部分》
5. Hadoop框架中文件拆分是怎么调用的?(10分)
InputFormat  -->  TextInputFormat  --> RecordReader  --> LineRecordReader  --> LineReader。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。