3.6
误)
3.7Hadoop支持数据的随机读写。(错) (8)
NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中3.8
读取或则会写入metadata信息并反馈client端。(错误) (8)
NameNode本地磁盘保存了Block的位置信息。(个人认为正确,欢迎提出其它意见) (9)
3.9
3.10 3.11DataNode通过长连接与NameNode保持通信。(有分歧) (9)
Hadoop自身具有严格的权限管理和安全措施保障集正常运行。(错误)9
3.12 3.13 3.14Slave节点要存储数据,所以它的磁盘越大越好。(错误) (9)
hadoop dfsadmin–report命令用于检测HDFS损坏块。(错误) (9)
Hadoop默认调度器策略为FIFO(正确) (9)
100道常见Hadoop面试题及答案解析
目录
1单选题 (5)
1.1 1.2 1.3 1.4 1.5 1.6 1.7下面哪个程序负责HDFS数据存储。 (5)
HDfS中的block默认保存几份? (5)
下列哪个程序通常与NameNode在一个节点启动? (5)
Hadoop作者 (6)
HDFS默认Block Size (6)
下列哪项通常是集的最主要瓶颈: (6)
关于SecondaryNameNode哪项是正确的? (6)
2 3多选题 (7)
2.1
2.2
2.3
2.4
2.5
下列哪项可以作为集的管理? (7)
配置机架感知的下面哪项正确: (7)
Client端上传文件的时候下列哪项正确? (7)
下列哪个是Hadoop运行的模式: (7)
Cloudera提供哪几种安装CDH的方法? (7)
判断题 (8)
3.1
3.2
3.3
Ganglia不仅可以进行监控,也可以进行告警。(正确) (8)
Block Size是不可以修改的。(错误) (8)
Nagios不可以监控Hadoop集,因为它不提供Hadoop支持。(错误)
8
3.4如果NameNode意外终止,SecondaryNameNode会接替它使集继续工作。(错误) (8)
3.5Cloudera CDH是需要付费使用的。(错误) (8)
Hadoop是Java开发的,所以MapReduce只支持Java语言编写。(错
8
3.15
集内每个节点都应该配RAID ,这样避免单磁盘损坏,影响整个节点运行。(错误).................................................................................................................93.16
因为HDFS 有多个副本,所以NameNode 是不存在单点问题的。(错误)93.17
3.18
3.19
误)
3.20
每个map 槽就是一个线程。(错误).......................................................9Mapreduce 的input split 就是一个block 。(错误)..............................10NameNode 的Web UI 端口是50030,它通过jetty 启动的Web 服务。(错10Hadoop 环境变量中的HADOOP_HEAPSIZE 用于设置所有Hadoop 守护线程的内存。
它默认是200GB 。(错误).............................................................10DataNode 首次加入cluster 的时候,如果log 中报告不兼容文件版本,那3.21
需要NameNode 执行“Hadoop namenode -format”操作格式化磁盘。(错误)......10问答题(一). (10)
4  4.1
Hadoop 集可以运行的3个模式?........................................................10单机(本地)模式中的注意点?................................................................10伪分布模式中的注意点?..........................................................................10VM 是否可以称为Pseudo ?....................................................................10全分布模式又有什么注意点?...................................................................10Hadoop 是否遵循UNIX 模式?...............................................................11Hadoop 安装在什么目录下?...................................................................11Namenode 、Jobtracker 和tasktracker 的端口号是?............................11Hadoop 的核心配置是什么?...................................................................11那当下又该如何配置?..............................................................................11RAM 的溢出因子是?...............................................................................11fs.mapr.working.dir 只是单一的目录?....................................................l 的3个主要属性?.....................................................
.........11如何退出输入模式?.................................................................................11当你输入hadoopfsck/造成“connectionrefusedjavaexception’”时,系4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
统究竟发生了什么?...............................................................................................11我们使用Ubuntu 及Cloudera ,那么我们该去哪里下载Hadoop ,或者是默认就与Ubuntu 一起安装? (11)
4.16
4.17
4.18
4.19
4.20
4.21
4.22
4.23
4.24“jps”命令的用处?................................................................................11如何重启Namenode ?............................................................................11Fsck 的全名?...........................................................................................12如何检查Namenode 是否正常运行?......................................................acker 命令的作用?...........................................................12/etc/init.d 命令的作用是?.......................................................................12如何在浏览器中查Namenode ?..........................................................12如何从SU 转到Cloudera ? (12)
4.25 4.26 4.27 4.28 4.29 4.30 4.31 4.32 4.33 4.34 4.35 4.36 4.37 4.38 4.39 4.40 4.41 4.42 4.43 4.44 4.45启动和关闭命令会用到哪些文件? (12)
Slaves由什么组成? (12)
Masters由什么组成? (12)
hadoop-env.sh是用于做什么的? (12)
Master文件是否提供了多个入口? (12)
hadoop-env.s件当下的位置? (12)
在Hadoop_PID_DIR中,PID代表了什么? (12)
/var/hadoop/pids用于做什么? (12)
hadoop-metrics.properties文件的作用是? (12)
Hadoop需求什么样的网络? (13)
全分布式环境下为什么需求password-lessSSH? (13)
这会导致安全问题吗? (13)
SSH工作的端口号是? (13)
SSH中的注意点还包括? (13)
为什么SSH本地主机需要密码? (13)
如果在SSH中添加key,是否还需要设置密码? (13)
假如Namenode中没有数据会怎么样? (13)
当JobTracker宕掉时,Namenode会发生什么? (13)
是客户端还是Namenode决定输入的分片? (13)
是否可以自行搭建Hadoop集? (13)
是否可以在Windows上运行Hadoop? (13)
5问答题(二) (13)
5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9写出以下执行命令 (13)
简述一下hdfs的数据压缩算法,工作中用的是那种算法,为什么? (14)
三个datanode,当有一个datanode出现错误会怎样? (14)
hdfs原理,以及各个模块的职责? (14)
哪个进程通常与namenode在一个节点启动?并做分析 (16)
hdfs的体系结构? (16)
HDFS,replica如何定位 (17)
hadoop分布式集搭建HDFS存储的机制? (17)
hdfs的client端,复制到第三个副本时宕机,hdfs怎么恢复保证下次写第三
副本?18
5.10 5.11 5.12 5.13 5.14 5.15block块信息是先写dataNode还是先写nameNode? (18)
Hive的join有几种方式,怎么实现join的? (18)
hive内部表和外部表的区别? (19)
hive是如何实现分区的? (19)
hive支持not in吗? (19)
Hive有哪些方式保存元数据,各有哪些优缺点。 (19)
5.16 5.17 5.18 5.19 5.20hive如何优化 (19)
hive能像关系数据库那样,建多个库吗? (19)
hive中的压缩格式RCFile、TextFile、SequenceFile各有什么区别?.19 hive相对于Oracle来说有那些优点? (20)
Hive的sort by和order by的区别 (20)
1单选题
1.1下面哪个程序负责HDFS数据存储。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
答案C datanode
1.2HDfS中的block默认保存几份?
a)3份
b)2份
c)1份
d)不确定
答案A默认3分
1.3下列哪个程序通常与NameNode在一个节点启动?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
答案D,此题分析:
hadoop的集是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。JobTracker和TaskTracker
JobTracker对应于NameNode
TaskTracker对应于DataNode
DataNode和NameNode是针对数据存放来而言的
JobTracker和TaskTracker是对于MapReduce执行而言的
mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:obclient,JobTracker与TaskTracker。
1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker创建每一个Task(即MapTask和

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。