Hadoop测试
一.填空题,1分〔41空〕,2分42共125分
1.(每空1分)  datanode    负责HDFS数据存储。
2.(每空1分)HDFS中的block默认保存  3    份。
3.(每空1分)  ResourceManager      程序通常与 NameNode 在一个节点启动
4.(每空1分)hadoop运行的模式有: 单机模式     伪分布模式    完全分布式 
5.(每空1分)Hadoop集搭建中常用的4个 core-site.xml l
  l l 
6. (每空2分)HDFS  分割    分割  后存放在既定的存储块   中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决
7.(每空2分)一个HDFS集包括两大局部,即 namenode  datanode 。一般来说,一个集
中会有一个 namenode  和多个 datanode 共同工作。
8.(每空2分)  namenode  是集的主效劳器,主要是用于对HDFS datanode
9.(每空2分)  datanode 在HDFS datanode 上,  datanode 会定期向集内  namenode 发送自己的运行状态与存储内容,并根据 namnode
10.(每空2分)  namenode client ,由 client 直接与 datanode
11.(每空1分)  block  是HDFS的根本存储单元,默认大小是 128M
hadoop分布式集搭建12.(每空1分)HDFS还可以对已经存储的Block进行多副本备份,将每个Block至少复制到
  3 个相互独立的硬件上,这样可以快速恢复损坏的数据。
13.(每空2分)当客户端的读取操作发生错误的时候,客户端会向 namenode  namenode 排除错误的 datanode 后,重新根据距离排序,从而获得一个新的       的读取路径。如果所有的 datanode
14.(每空2分)对于写出操作过程中出现的问题,  FSDataOutputStream 并不会立即关闭。客户端向Namenode datanode 中写入数据。备份
  datanode  被升级为首选 datanode ,并在其余2个 datanode 中备份复制数据。NameNode对错误的DataNode进行标记以便后续对其进行处理。
15.(每空1分)格式化HDFS   hdfs namenode format     
16.(每空1分)启动hdfs的shell脚本为:   start-dfs.sh        
17.(每空1分)启动yarn的shell脚本为:   start-yarn.sh        
18.(每空1分)停止hdfs的shell脚本为:   stop-dfs.sh         
19.(每空1分)hadoop创立〔如:/a/b/c〕的  hadoop fs –mkdir –p /a/b/c 
20.(每空1分)hadoop   hadoop fs –lsr 
21.(每空1分)hadoop包含的四大模块分别是:  Hadoop common  HDFS  Mapreduce    yarn 
22.(每空1分)namenode默认的WebUI   50070 
23.(每空1分)ResourceManager默认的WebUI为:   8088 
24.(每空1分)historyServer默认的WebUI为:   19888 
25.(每空1分)修改blocksize大小的属性是: dfs.blocksize ,在 hdfs-site.xml 配置
26.(每空1分)HDFS中namenode的RPC 8021  ,其作用是:  接收Client连接的RPCmetadata信息
27.(每空2分)Mapper类中有  4
28.(每空1分)默认NameNode周期性从DataNode的时间间隔为:  3s 
29.(每空1分)hadoop集默认机架感知是启用的。是否正确:  错误 
30.(每空2分)Hadoop Map/Reduce Shuffle过程:  inputsplit-->map—>内存缓冲区                                         
Partitionsortcombinespill--> mapmerge -->reducecopy—>mergereduce
31.(每空2分)一个NodeManager能够同时运行最大reduce任务数〔默认〕:  2 
32.(每空2分)默认情况下,一个同时运行了namenode,secondarynamenode和ResourceManager的主节点,所使用的内存容量为  3000  M。
33.(每空2分)Hadoop集中有三种作业调度算法,分别为  FIFO调度  计算能力调度   公平调度 
34.(每空1分)HA产生的背景是:  为了解决单NN可能出现宕机导致集不可用或数据丧失的问题 
35.(每空1分)通过  Zookeeper 管理两个或者多个NameNode,使一个NameNode为
active 状态,并且同步每个NN的元数据,如果 active 状态的NN宕机后马上启用状态为 standby 状态的备用节点。
36.(每空1分)  job  是客户端需要执行的一个工作单元。
37.(每空1分)Hadoop将作业分成假设干个 task  来执行,其中包括:  maptask  reducetask
38.(每空2分)combiner是通过  Reducer  类来定义的。
39.(每空2分)map任务将其输出写入到 本地磁盘
40.(每空2分)reduce的输出通常存储在  HDFS  中以实现可靠存储。
41.(每空2分)HDFS会对写入的所有数据计算  校验和  ,并在读取数据时验证  校验和
42.(每空2分)序列化用于分布式数据处理的两大领域为:  进程间通信   永久存储 
43.(每空2分)hadoop使用自己的序列化格式为:  Writable 
二.简答题,317题,5分5题共75分
1.(3分)简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。
答:
1使用root账户登录
2 修改IP
3 修改host主机名
4 配置SSH
5 关闭防火墙
6  安装JDK
7 解压hadoop安装包
8 配置hadoop hadoop-env.sh,l , l , l
9 配置hadoop环境变量
10 格式化 hadoop namenode -format
11 启动节点 start-all.sh
2.(3分)请列出正常的hadoop集中hadoop都分别需要启动哪些进程,他们的作用分别都是什么,请尽量列的详细一些。
答:
namenode:管理集,存储数据的原信息,并管理记录datanode
secondarynamenode:它是namenode的一个快照,会根据configuration中设置的值来
    cp一下namenode,记录namenode中的metadata及其它数据。
Datanode:存储数据
ResourceManager:ResourceManager负责集中所有资源的统一管理和分配,它接收来自各个节点〔NodeManager〕的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序〔实际上是ApplicationManager〕
NodeManager:是YARN中每个节点上的代理,它管理Hadoop集中单个计算节点
   
    (3分)请写出以下的shell
    〔1〕杀死一个job
〔2〕删除hdfs上的 /tmp/aaa
〔3
答:
〔1〕mapred job -list得到job的id,然后执行mapred job –kill jobId就可以杀死一个指定jobId的job工作了。
〔2〕hadoop fs -rmr /tmp/aaa或者hdfs dfs –rmr /tmp/aaa
〔3〕增加一个新的节点在新的节点上执行
        hadoop-daemon.sh  start datanode
        然后在主节点中执行  hdfs dfsadmin -refreshNodes
    删除一个节点的时候,只需要在主节点执行  hdfs dfsadmin –refreshnodes
3.(3分)请简述mapreduce中的combine和partition的作用
答:
combiner是发生在map的最后一个阶段,其原理也是一个小型的reducer,主要作用是减少输出到reduce的个数,减少reducer的输入,提高reducer的执行效率。
Partition的主要作用就是指定输出到reduce的个数的。
4.(3分)hdfs的体系结构
答:
HDFS采用了主从〔Master/Slave〕结构模型,一个HDFS集是由一个NameNode和假设干个DataNode组成的。其中NameNodeDataNode管理存储的数据
5.(3分)三个datanode中当有一个datanode出现错误时会怎样?
答:
当有一个datanode出现错误的时候,namenode会将那个datanode上的数据拷贝到其他的节点去进行存储。
6.(3分) 64M,改为 128M 有什么影响?
答:
block块大小,需要根据我们的实际生产中来更改block的大小,如果blockblockblock块中,虽然不浪费硬盘资源,可是还是会增加namenode的管理内存压力。
7.(3分)NameNode与SecondaryNameNode的区别与联系?
答:
secondaryNameNode更像是Namenode的一个冷备份,当namenode宕机之后,可以从SecondaryNamenode上面恢复局部数据。
8.(5分)在一个运行的hadoop任务中,什么是InputSplit?

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。