Hadoop大数据技术原理与应用课后习题答案汇总--688IT编程网

Hadoop⼤数据技术原理与应⽤课后习题答案汇总选择题

1. 以下选项中，哪个程序负责HDFS数据存储。 (B)

A、NameNode

B、DataNode

C、Secondary NameNode

D、ResourceManager

2. 下列哪项通常是集的最主要的性能瓶颈？ (C)

A、CPU

B、⽹络

C、磁盘

D、内存

3. 下⾯哪项是Hadoop的作者？(B)

A、Martin Fowler

B、Doug cutting

C、Mark Elliot Zuckerberg

D、Kent Beck

4. HDFS默认备份数量？(D)

A、0

B、1

C、2

D、3

5. 下列描述说法错误的是？ (D)

A、SecureCRT是⼀款⽀持SSH的终端仿真程序，它能够在Windows操作系统上远程连接Linux服务器执⾏操作。

B、Hadoop是⼀个⽤于处理⼤数据的分布式集架构，⽀持在GNU/Linux系统以及Windows系统上进⾏安装使⽤。

C、VMware Workstation是⼀款虚拟计算机的软件，⽤户可以在单⼀的桌⾯上同时操作不同的操作系统。

D、 SSH是⼀个软件，专为远程登录会话和其他⽹络服务提供安全性功能的软件。

6. 配置Hadoop集时，下列哪个Hadoop配置⽂件需要进⾏修改？（多选） (AC)

A、hadoop-env.sh

B、profile

C、l

D、ifcfg-eth0

7. Hadoop2.x版本中的数据块⼤⼩默认是多少？ (B) A、 64M B、 128M C、 256M D、 512M

8. 关于Secondary NameNode哪项是正确？(C)

A、它是 NameNode 的热备

B、它对内存没有要求

C、它的⽬的是帮助 NameNode合并编辑⽇志，减少NameNode启动时间

D、SecondaryNameNode 应与NameNode部署到⼀个节点

9. 客户端上传⽂件的时候哪项是正确的？（多选）（BD）

A、数据经过 NameNode 传递给 DataNode

B、客户端端将⽂件切分为多个Block，依次上传

C、客户端只上传数据到⼀台 DataNode，然后由 NameNode 负责 Block 复制⼯作

D、客户端发起⽂件上传请求，通过RPC与NameNode建⽴通讯。

0. MapReduce适⽤于（D）

A、任意应⽤程序　

B、任意可以在Windows Server 2008上的应⽤程序

C、可以串⾏处理的应⽤程序　

D、可以并⾏处理的应⽤程序

1. 下⾯关于MapReduce模型中Map函数与Reduce函数的描述正确的是（A）

A、⼀个Map函数就是对⼀部分原始数据进⾏指定的操作。

B、⼀个Map操作就是对每个Reduce所产⽣的⼀部分中间结果进⾏合并操作。

C、Map与Map之间不是相互独⽴的。

D、Reducee与Reduce之间不是相互独⽴的。

2. MapReduce⾃定义排序规则需要重写下列那项⽅法（B）

A、readFields()

B、 compareTo()

C、 map()

D、reduce()

3. Zookeeper启动时会最多监听⼏个端⼝（B）

A、1

B、2

C、3

D、4

4. 下列哪些操作可以设置⼀个Watcher（D）

A、getData

B、getChildren

C、exists

D、setData

5. 下列关于zookeeper描述正确的是：（A）

A、⽆论客户端连接的是哪个Zookeeper服务器，其看到的服务端数据模型都是⼀致的

B、从同⼀个客户端发起的事务请求，最终将会严格按照其发起顺序被应⽤到zookeeper中

C、在⼀个5个节点组成的Zookeeper集中，如果同时有3台机器宕机，服务不受影响

D、如果客户端连接到Zookeeper集中的那台机器突然宕机，客户端会⾃动切换连接到集其他机器

6. 下列选项中那些是Hadoop2.x版本独有的进程（C）

A、JobTracker　

B、TaskTracker　

C、NodeManager　

D、NameNode

7. 下列选项描述错误的是？（A）

A、Hadoop HA即集中包含Secondary NameNode作为备份节点存在。

B、ResourceManager负责的是整个Yarn集资源的监控、分配和管理⼯作

C、NodeManager负责定时的向ResourceManager汇报所在节点的资源使⽤情况以及接收并处理来⾃ApplicationMaster的启动停

⽌容器（Container）的各种请求。

D、初次启动Hadoop HA集时，需要将格式化⽂件系统后的⽬录拷贝⾄另外⼀台NameNode节点上。

8. Hive是建⽴在（C）之上的⼀个数据仓库

A、HDFS

B、MapReduce

C、Hadoop

D、HBase

9. Hive查询语⾔和SQL的⼀个不同之处在于（C）操作

A、Group by

B、Join

C、Partition

D、Union

0. Hive最重视的性能是可测量性、延展性、（B）和对于输⼊格式的宽松匹配性

A、较低恢复性

B、容错性

C、快速查询

D、可处理⼤量数据

1. 以下选项中，哪种类型间的转换是被Hive查询语⾔所⽀持的（D）

A、Double—Number

B、BigInt—Double

C、Int—BigInt

D、String--Double

2. 按粒度⼤⼩的顺序，Hive数据被分为：数据库、数据表、（C）、桶？

A、元祖

B、栏

C、分区

D、⾏

3. 下⾯说法选项错误的是（多选）(AD）

A、在⼀个Agent中，同⼀个source可以有多个channel

B、在⼀个Agent中，同⼀个sink可以有多个channel

C、在⼀个Agent中，同⼀个source只能多1个channel

D、在⼀个Agent中，同⼀个sink只能有1个channel

4. 下列选项参数是Sqoop指令的是？(多选) （AD）

A、import

B、output

C、input

D、export

5. 下列语句描述错误的是（C）

A、可以通过CLI⽅式、Java API⽅式调⽤Sqoop

B、Sqoop底层会将Sqoop命令转换为MapReduce任务，并通过Sqoop连接器进⾏数据的导⼊导出操作。

C、Sqoop是独⽴的数据迁移⼯具，可以在任何系统上执⾏。

D、如果在Hadoop分布式集环境下，连接MySQL服务器参数不能是localhost或127.0.0.1。

判断题

1、Cloudera CDH是需要付费使⽤的。（X）

2、JobTracker是HDFS重要⾓⾊。（X）

3、在Hadoop集中，NameNode负责管理所有DataNode。（√ ）

4、在Hadoop1.x版本中，MapReduce程序是运⾏在Yarn集之上。（X）

5、Hadoop是由Java语⾔开发的。（√ ）

6、Hadoop是Java语⾔开发的，因此在搭建Hadoop集时，需要为集安装JDK环境变量。（√）

7、伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。（√ ）

8、启动Hadoop集服务之前需要格式化⽂件系统。（√ ）

9、Hadoop存在多个副本，且默认备份数量是3。（√ ）

10、配置Hadoop集只需要修改l配置⽂件就可以。（X）

11、Secondary NameNode是NameNode的备份，可以有效解决Hadoop集单点故障问题。X

12、NameNode负责管理元数据，客户端每次读写请求时，都会从磁盘中读取或写⼊元数据信息并反馈给客户端。(√ )

13、NameNode本地磁盘保存了数据块的位置信息。(X)

14、Map阶段处理数据时，是按照Key的哈希值与ReduceTask数量取模进⾏分区的规则。(√ )

15、分区数量是ReduceTask的数量。(√ )

16、在MapReduce程序中，必须开发Map和Reduce相应的业务代码才能执⾏程序。(X）

17、Zookeeper对节点的Watch监听通知是永久性的。（X）

18、Zookeeper集宕机数超过集数⼀半，则Zookeeper服务失效。（√ ）

19、Zookeeper可以作为⽂件存储系统，因此可以将⼤规模数据⽂件存在该系统中。（X）

20、ResourceManager负责监控ApplicationMaster，并在ApplicationMaster运⾏失败的时候重启它，因此ResouceManager负责ApplicationMaster内部任务的容错。（X）

21、NodeManager是每个节点上的资源和任务管理器。（√ )

22、Hadoop HA是集中启动两台或两台以上机器充当NameNode，避免⼀台NameNode节点发⽣故障导致整个集不可⽤的情况。(√)

23、Hadoop HA是两台NameNode同时执⾏NameNode⾓⾊的⼯作。(X)

24、在Hadoop HA中，Zookeeper集为每个NameNode都分配了⼀个故障恢复控制器，该控制器⽤于监控NameNode的健康状态。(√ )

25、Hive使⽤length()函数可以求出输出的数量。(X)

26、再创建外部表的同时要加载数据⽂件，数据⽂件会移动到数据仓库指定的⽬录下。(X)

27、Hive是⼀款独⽴的数据仓库⼯具，因此在启动前⽆需启动任何服务。(X)

28、Hive默认不⽀持动态分区功能，需要⼿动设置动态分区参数开启功能。(√ )

29、Hive分区字段不能与已存在字段重复，且分区字段是⼀个虚拟的字段，它不存放任何数据，该数据来源于装载分区表时所指定的数据⽂件。（√ ）

30、Flume Agent是⼀个JVM进程，它承载着数据从外部源流向下⼀个⽬标的三个核⼼组件是Source、Channel和Sink。（√ ）

31、Taildir Source⽤于观察指定的⽂件，可以实时监测到添加到每个⽂件的新⾏，如果⽂件正在写⼊新⾏，则此采集器将重试采集它们以等待写⼊完成。（√ ）

32、Flume采集⽅案的名称、位置、以及sources、channels、sinks参数配置信息可以随定义。（X）

33、在整个数据传输的过程中，Flume将流动的数据封装到⼀个event（事件）中，它是Flume内部数据传输的基本单元。（ √ ）

34、Sqoop是关系型数据库与Hadoop之间的数据桥梁，这个桥梁的重要组件是Sqoop连接器。√

35、Sqoop从Hive表导出MySQL表时，⾸先需要在MySQL中创建表结构。（√ ）

36、--target-dir参数是指定HDFS⽬标⽬录地址，因此需要提前创建⽬标⽂件。（X）

填空题

1、⼤数据的4V特征包含____⼤量、多样、⾼速、价值____

2、Hadoop三⼤组件包含___ HDFS、MapReduce、Yarn______。

java加密方式有哪些3、Hadoop2.x版本中的HDFS是由____ NameNode、DataNode、Secondary NameNode___组成。

4、Hadoop发⾏版本分为____开源社区版、商业版______。

5、⽬前Apache Hadoop发布的版本主要有__ Hadoop1.x、Hadoop2.x、Hadoop3.x。

1、Hadoop集部署⽅式分别是__ 独⽴模式、伪分布式模式、完全分布式模式

2、加载环境变量配置⽂件需要使⽤_ source /etc/profile_命令。

3、格式化HDFS集命令是__ hadoop namenode -format___。

4、脚本⼀键启动Hadoop集服务命令是__start-all.sh_。

5、Hadoop默认开设HDFS⽂件系统端⼝号___50070____和监控Yarn集端⼝号___8088___。

1、 ___NameNode___⽤于维护⽂件系统名称并管理客户端对⽂件的访问，DataNode____存储真实的数据块。

2、 NameNode与DataNode通过___⼼跳监测____机制互相通信。

3、 NameNode以元数据形式维护着______fsimage、EditLog_⽂件。

1、在MapReduce中，Map______阶段负责将任务分解，Reduce______阶段将任务合并。

2、MapReduce⼯作流程分为分⽚、格式化数据源、执⾏MapTask、执⾏Shuffle过程、执⾏ReduceTask、写⼊⽂件

3、Partitioner组件⽬的是______将key均匀分布在ReduceTask上_____。

1、Zookeeper集主要有Leader、Follower、Observer_____三种⾓⾊。

688IT编程网

Hadoop大数据技术原理与应用课后习题答案汇总

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

Hadoop大数据技术原理与应用课后习题答案汇总

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性