习题
一、选择题
1.下列有关Hadoop的说法正确的是( ABCD )。
A.Hadoop最早起源于Nutch
B.Hadoop中HDFS的理念来源于谷歌发表的分布式文件系统(GFS)的论文
C.Hadoop中MapReduce的思想来源于谷歌分布式计算框架MapReduce的论文
D.Hadoop是在分布式服务器集上存储海量数据并运行分布式分析应用的一个开源的软件框架
2.使用Hadoop的原因是( ABCD )。
A.方便:Hadoop运行在由一般商用机器构成的大型集上或者云计算服务上
B.稳健:Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁失效,Hadoop可以
从容地处理大多数此类故障
C.可扩展:Hadoop通过增加集节点,可以线性地扩展以处理更大的数据集
D.简单:Hadoop允许用户快速编写高效的并行代码
3.Hadoop的作者是( B )。
A.Martin Fowler B.Doug Cutting C.Kent Beck D.Grace Hopper
4.以下关于大数据特点的描述中,不正确的是( ABC )。
A.巨大的数据量 B.多结构化数据 C.增长速度快 D.价值密度高
二、简答题
1.Hadoop是一个什么样的框架?
答:Hadoop是一款由Apache基金会开发的可靠的、可伸缩的分布式计算的开源软件。它允许使用简单的编程模型在跨计算机集中对大规模数据集进行分布式处理。
2.Hadoop的核心组件有哪些?简单介绍每一个组件的作用。
答:核心组件有HDFS、Maphadoop分布式集搭建Reduce、YARN。
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop的核心组件之一,作为最底层的分布式存储服务而存在。它是一个高度容错的系统,能检测和应对硬件故障,可在低成本的通用硬件上运行。
MapReduce是Hadoop的一个分布式计算框架,也是一种大规模数据集并行运算的编程模型,主要用于处理海量数据的运算。MapReduce主要包括map(映射)和reduce(规约)两部分。它是一个分布式运算程序的编程框架,其核心功能是将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式运算程序,并发运行在Hadoop集上。
Hadoop YARN 是开源 Hadoop分布式处理框架中的资源管理和作业调度框架,主要负责将系统资源分配给在 Hadoop 集中运行的各种应用程序,并调度在不同集节点上执行的任务
3.简述Hadoop生态体系,并列举此生态体系中涉及的技术。
答:当今的Hadoop已经成长为一个庞大的生态体系,随着生态体系的成长,新出现的项目也越来越多,其中不乏一些非Apache主管的项目,这些项目对Hadoop做了更好的补充或者更高层的抽象,涉及的技术有HBase、Hive、Sqoop、Pig、Flume、Oozie、ZooKeeper、kafka、Spark等。
4.简单列举几个Hadoop的应用场景。
答:(1)在线旅游
(2)电子商务
(3)移动数据
(4)能源发现
(5)节约能源
(6)图像处理
(7)医疗保健
(8)IT安全
(9)欺诈检测
(10)基础设施管理
习题
一、填空题
1.Hadoop集中的节点 DataNode 负责HDFS的数据存储。
2.Hadoop集中的 Jobtracker 程序通常与NameNode在一个节点启动。
3.Hadoop的运行模式有 独立(本地)运行模式 、伪分布式运行模式 和完全分布式运行环境 。
4.Hadoop集搭建中常用的4个配置文件有 hadoop-env.sh 、 core-site,xml 、 mapred-site,.xml 和 l 。
二、操作题
1.根据2.2节伪分布式安装的安装及配置步骤,在自己计算机上搭建伪分布式Hadoop集环境,环境搭建完毕后通过命令及Web访问方式查看集的启动情况。
答:具体步骤见章节内容。
2. 根据2.3节完全分布式安装的安装及配置步骤,根据自己计算机的实际配置情况分析是否可以搭建至少2台节点的完全分布式Hadoop集环境,如果配置允许则搭建完全分布式集环境,搭建完毕后通过命令或Web访问方式查看集的启动信息。
答:具体步骤见章节内容。
习题
一、填空题
1.由于NameNode宕机,导致无法对外提供服务,可通过搭建 HDFS HA 来解决。
2.YARN的高可用主要是解决 ResourceManager单点故障 。
3.由于HDFS存储数据量过大,导致NameNode内存不足,可以通过搭建 联邦
来解决。
来解决。
二、简答题
1.Hadoop是如何解决高可用问题的?
答:对于Hadoop集,RM和NN都是“Single Point of Failure(单点故障)”,起着“一票否决”的作用,所以Hadoop对NN和RM都提供了HA选项,采用的都是Active/Standby的措施来达到HA的要求。所谓Active/Standby是一种热备方案,这种方案中,“在位”的行使职权的Active的管理者只有一个,但有一个作为备份(即Standby)的候补管理者时刻准备着,当Active的管理者发生故障,Standby的管理者就立刻顶上,并进行业务的接管,不用临时开机和初始化。
2.简述ZooKeeper的功能及其在Hadoop高可用中起到的作用。
答:ZooKeeper主要用来解决分布式应用中经常遇到的一些数据管理问题,如统一命名服务、状态同步服务、集管理、分布式应用配置项的管理等。
在Hadoop的HA集中,使用ZooKeeper的存储功能可保存NameNode的状态信息,ZooKeeper会监听两个NameNode的工作状态,当状态发生改变时,由其协调Active与Standby状态的切换。
3.YARN是如何解决高可用问题的?
答:Hadoop在2.4版本之后,针对YARN引入了HA机制,也就是ResourceManager的Active/Standby。YARN的HA与HDFS的HA基本相同,但YARN HA能够支持多个Standby的ResourceManager(Hadoop 2.x的HDFS HA只允许有一个Standby的NameNode,Hadoop 3.x之后,允许有多个Standby的NameNode),Active和Standby的状态可以通过控制台命令手动切换,也可以自动切换。
4.Hadoop联邦解决了什么问题?
答:Hadoop集启动后,NameNode在内存中保存了文件和块的映射关系,这意味着对于一个拥有大量文件的超大集来说,由于数据量太大,NameNode的内存中可能也无法放下这么多的对应关系,内存将成为限制系统横向扩展的瓶颈。Hadoop 2.x版本中引入了HDFS联邦机制来解决这个问题
一、选择题
1.数据块(block)的大小由( A )参数决定。
A.dfs.blocksize B.fs.replication C.fs.defaultFS D.dfs.block
2.创建HDFS新目录“/newdir”的命令为( D )。
A.hadoop mkdir /newdir B.hadoop fs mkdir /newdir
C.hadoop fs –mkdir newdir D.hadoop fs –mkdir /newdir
二、简答题
简述HDFS的写数据流程。
答:(1)客户端首先与NameNode建立连接,发起文件上传请求。
(2)NameNode检查上传路径是否存在,目标文件是否存在,权限是否允许。若无问题则修改命名空间,并反馈允许上传。
(3)客户端收到允许上传反馈后再次请求第一个Block所在的节点名。
(4)NameNode根据机架感知原理选取三个节点(DataNode1、DataNode2、DataNode3)并将其反馈给客户端。
(5)客户端从获取的三个节点中选取一个节点建立管道(Pipeline)连接,请求上传数据。节点1收到请求后与节点2获取连接,节点2收到请求后与节点3获取连接。
(6)连接全部建立成功后,客户端开始向第一个节点传输第一个Block。该Block数据以Packet为单位进行传输。数据的校验则是以更小的Chunk单位进行的。数据在客户端本地和DataNode端都有读取和写入的缓存队列。每一次Packet在Pipeline上的传输都需要反向应答。直到写完预定的Block为止。节点1、节点2和节点3之间也会以同样的方式同步传输。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论