Hadoop⼤数据技术原理与应⽤课后习题答案汇总选择题
1. 以下选项中,哪个程序负责HDFS数据存储。 (B)
A、NameNode
B、DataNode
C、Secondary NameNode
D、ResourceManager
2. 下列哪项通常是集的最主要的性能瓶颈? (C)
A、CPU
B、 ⽹络
C、磁盘
D、内存
3. 下⾯哪项是Hadoop的作者?(B)
A、Martin Fowler
B、Doug cutting
C、Mark Elliot Zuckerberg
D、Kent Beck
4. HDFS默认备份数量?(D)
A、0
B、1
C、2
D、3
5. 下列描述说法错误的是? (D)
A、SecureCRT是⼀款⽀持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执⾏操作。
B、Hadoop是⼀个⽤于处理⼤数据的分布式集架构,⽀持在GNU/Linux系统以及Windows系统上进⾏安装使⽤。
C、VMware Workstation是⼀款虚拟计算机的软件,⽤户可以在单⼀的桌⾯上同时操作不同的操作系统。
D、 SSH是⼀个软件,专为远程登录会话和其他⽹络服务提供安全性功能的软件。
6. 配置Hadoop集时,下列哪个Hadoop配置⽂件需要进⾏修改?(多选) (AC)
A、hadoop-env.sh
B、profile
C、l
D、ifcfg-eth0
7. Hadoop2.x版本中的数据块⼤⼩默认是多少? (B) A、 64M B、 128M C、 256M D、 512M
8. 关于Secondary NameNode哪项是正确?(C)
A、它是 NameNode 的热备
B、它对内存没有要求
C、它的⽬的是帮助 NameNode合并编辑⽇志,减少NameNode启动时间
D、SecondaryNameNode 应与NameNode部署到⼀个节点
9. 客户端上传⽂件的时候哪项是正确的?(多选)(BD)
A、数据经过 NameNode 传递给 DataNode
B、客户端端将⽂件切分为多个Block,依次上传
C、客户端只上传数据到⼀台 DataNode,然后由 NameNode 负责 Block 复制⼯作
D、客户端发起⽂件上传请求,通过RPC与NameNode建⽴通讯。
0. MapReduce适⽤于(D)
A、任意应⽤程序
B、任意可以在Windows Server 2008上的应⽤程序
C、可以串⾏处理的应⽤程序
D、可以并⾏处理的应⽤程序
1. 下⾯关于MapReduce模型中Map函数与Reduce函数的描述正确的是(A)
A、⼀个Map函数就是对⼀部分原始数据进⾏指定的操作。
B、⼀个Map操作就是对每个Reduce所产⽣的⼀部分中间结果进⾏合并操作。
C、Map与Map之间不是相互独⽴的。
D、Reducee与Reduce之间不是相互独⽴的。
2. MapReduce⾃定义排序规则需要重写下列那项⽅法(B)
A、readFields()
B、 compareTo()
C、 map()
D、reduce()
3. Zookeeper启动时会最多监听⼏个端⼝(B)
A、1
B、2
C、3
D、4
4. 下列哪些操作可以设置⼀个Watcher(D)
A、getData
B、getChildren
C、exists
D、setData
5. 下列关于zookeeper描述正确的是:(A)
A、⽆论客户端连接的是哪个Zookeeper服务器,其看到的服务端数据模型都是⼀致的
B、从同⼀个客户端发起的事务请求,最终将会严格按照其发起顺序被应⽤到zookeeper中
C、在⼀个5个节点组成的Zookeeper集中,如果同时有3台机器宕机,服务不受影响
D、如果客户端连接到Zookeeper集中的那台机器突然宕机,客户端会⾃动切换连接到集其他机器
6. 下列选项中那些是Hadoop2.x版本独有的进程(C)
A、JobTracker
B、TaskTracker
C、NodeManager
D、NameNode
7. 下列选项描述错误的是?(A)
A、Hadoop HA即集中包含Secondary NameNode作为备份节点存在。
B、ResourceManager负责的是整个Yarn集资源的监控、分配和管理⼯作
C、NodeManager负责定时的向ResourceManager汇报所在节点的资源使⽤情况以及接收并处理来⾃ApplicationMaster的启动停
⽌容器(Container)的各种请求。
D、初次启动Hadoop HA集时,需要将格式化⽂件系统后的⽬录拷贝⾄另外⼀台NameNode节点上。
8. Hive是建⽴在(C)之上的⼀个数据仓库
A、HDFS
B、MapReduce
C、Hadoop
D、HBase
9. Hive查询语⾔和SQL的⼀个不同之处在于(C)操作
A、Group by
B、Join
C、Partition
D、Union
0. Hive最重视的性能是可测量性、延展性、(B)和对于输⼊格式的宽松匹配性
A、较低恢复性
B、容错性
C、快速查询
D、可处理⼤量数据
1. 以下选项中,哪种类型间的转换是被Hive查询语⾔所⽀持的(D)
A、Double—Number
B、BigInt—Double
C、Int—BigInt
D、String--Double
2. 按粒度⼤⼩的顺序,Hive数据被分为:数据库、数据表、(C)、桶?
A、元祖
B、栏
C、分区
D、⾏
3. 下⾯说法选项错误的是(多选)(AD)
A、在⼀个Agent中,同⼀个source可以有多个channel
B、在⼀个Agent中,同⼀个sink可以有多个channel
C、在⼀个Agent中,同⼀个source只能多1个channel
D、在⼀个Agent中,同⼀个sink只能有1个channel
4. 下列选项参数是Sqoop指令的是?(多选) (AD)
A、import
B、output
C、input
D、export
5. 下列语句描述错误的是(C)
A、可以通过CLI⽅式、Java API⽅式调⽤Sqoop
B、Sqoop底层会将Sqoop命令转换为MapReduce任务,并通过Sqoop连接器进⾏数据的导⼊导出操作。
C、Sqoop是独⽴的数据迁移⼯具,可以在任何系统上执⾏。
D、如果在Hadoop分布式集环境下,连接MySQL服务器参数不能是localhost或127.0.0.1。
判断题
1、Cloudera CDH是需要付费使⽤的。(X)
2、JobTracker是HDFS重要⾓⾊。(X)
3、在Hadoop集中,NameNode负责管理所有DataNode。(√ )
4、在Hadoop1.x版本中,MapReduce程序是运⾏在Yarn集之上。(X)
5、Hadoop是由Java语⾔开发的。(√ )
6、Hadoop是Java语⾔开发的,因此在搭建Hadoop集时,需要为集安装JDK环境变量。(√)
7、伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。(√ )
8、启动Hadoop集服务之前需要格式化⽂件系统。(√ )
9、Hadoop存在多个副本,且默认备份数量是3。(√ )
10、配置Hadoop集只需要修改l配置⽂件就可以。(X)
11、Secondary NameNode是NameNode的备份,可以有效解决Hadoop集单点故障问题。X
12、NameNode负责管理元数据,客户端每次读写请求时,都会从磁盘中读取或写⼊元数据信息并反馈给客户端。(√ )
13、NameNode本地磁盘保存了数据块的位置信息。(X)
14、Map阶段处理数据时,是按照Key的哈希值与ReduceTask数量取模进⾏分区的规则。(√ )
15、分区数量是ReduceTask的数量。(√ )
16、在MapReduce程序中,必须开发Map和Reduce相应的业务代码才能执⾏程序。(X)
17、Zookeeper对节点的Watch监听通知是永久性的。(X)
18、Zookeeper集宕机数超过集数⼀半,则Zookeeper服务失效。(√ )
19、Zookeeper可以作为⽂件存储系统,因此可以将⼤规模数据⽂件存在该系统中。(X)
20、ResourceManager负责监控ApplicationMaster,并在ApplicationMaster运⾏失败的时候重启它,因此ResouceManager负责ApplicationMaster内部任务的容错。(X)
21、NodeManager是每个节点上的资源和任务管理器。(√ )
22、Hadoop HA是集中启动两台或两台以上机器充当NameNode,避免⼀台NameNode节点发⽣故障导致整个集不可⽤的情况。(√)
23、Hadoop HA是两台NameNode同时执⾏NameNode⾓⾊的⼯作。(X)
24、在Hadoop HA中,Zookeeper集为每个NameNode都分配了⼀个故障恢复控制器,该控制器⽤于监控NameNode的健康状态。(√ )
25、Hive使⽤length()函数可以求出输出的数量。(X)
26、再创建外部表的同时要加载数据⽂件,数据⽂件会移动到数据仓库指定的⽬录下。(X)
27、Hive是⼀款独⽴的数据仓库⼯具,因此在启动前⽆需启动任何服务。(X)
28、Hive默认不⽀持动态分区功能,需要⼿动设置动态分区参数开启功能。(√ )
29、Hive分区字段不能与已存在字段重复,且分区字段是⼀个虚拟的字段,它不存放任何数据,该数据来源于装载分区表时所指定的数据⽂件。(√ )
30、Flume Agent是⼀个JVM进程,它承载着数据从外部源流向下⼀个⽬标的三个核⼼组件是Source、Channel和Sink。(√ )
31、Taildir Source⽤于观察指定的⽂件,可以实时监测到添加到每个⽂件的新⾏,如果⽂件正在写⼊新⾏,则此采集器将重试采集它们以等待写⼊完成。(√ )
32、Flume采集⽅案的名称、位置、以及sources、channels、sinks参数配置信息可以随定义。(X)
33、在整个数据传输的过程中,Flume将流动的数据封装到⼀个event(事件)中,它是Flume内部数据传输的基本单元。( √ )
34、Sqoop是关系型数据库与Hadoop之间的数据桥梁,这个桥梁的重要组件是Sqoop连接器。√
35、Sqoop从Hive表导出MySQL表时,⾸先需要在MySQL中创建表结构。(√ )
36、--target-dir参数是指定HDFS⽬标⽬录地址,因此需要提前创建⽬标⽂件。(X)
填空题
1、⼤数据的4V特征包含____⼤量、多样、⾼速、价值____
2、Hadoop三⼤组件包含___ HDFS、MapReduce、Yarn______。
java加密方式有哪些3、Hadoop2.x版本中的HDFS是由____ NameNode、DataNode、Secondary NameNode___组成。
4、Hadoop发⾏版本分为____开源社区版、商业版______。
5、⽬前Apache Hadoop发布的版本主要有__ Hadoop1.x、Hadoop2.x、Hadoop3.x。
1、Hadoop集部署⽅式分别是__ 独⽴模式、伪分布式模式、完全分布式模式
2、加载环境变量配置⽂件需要使⽤_ source /etc/profile_命令。
3、格式化HDFS集命令是__ hadoop namenode -format___。
4、脚本⼀键启动Hadoop集服务命令是__start-all.sh_。
5、Hadoop默认开设HDFS⽂件系统端⼝号___50070____和监控Yarn集端⼝号___8088___。
1、 ___NameNode___⽤于维护⽂件系统名称并管理客户端对⽂件的访问,DataNode____存储真实的数据块。
2、 NameNode与DataNode通过___⼼跳监测____机制互相通信。
3、 NameNode以元数据形式维护着______fsimage、EditLog_⽂件。
1、在MapReduce中,Map______阶段负责将任务分解,Reduce______阶段将任务合并。
2、MapReduce⼯作流程分为分⽚、格式化数据源、执⾏MapTask、执⾏Shuffle过程、执⾏ReduceTask、写⼊⽂件
3、Partitioner组件⽬的是______将key均匀分布在ReduceTask上_____。
1、Zookeeper集主要有Leader、Follower、Observer_____三种⾓⾊。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论