Hadoop 100道面试题及答案解析--688IT编程网

3.6

误）

3.7Hadoop支持数据的随机读写。（错） (8)

NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中3.8

读取或则会写入metadata信息并反馈client端。（错误） (8)

NameNode本地磁盘保存了Block的位置信息。（个人认为正确，欢迎提出其它意见） (9)

3.9

3.10 3.11DataNode通过长连接与NameNode保持通信。（有分歧） (9)

Hadoop自身具有严格的权限管理和安全措施保障集正常运行。（错误）9

3.12 3.13 3.14Slave节点要存储数据，所以它的磁盘越大越好。（错误） (9)

hadoop dfsadmin–report命令用于检测HDFS损坏块。（错误） (9)

Hadoop默认调度器策略为FIFO（正确） (9)

100道常见Hadoop面试题及答案解析

1单选题 (5)

1.1 1.2 1.3 1.4 1.5 1.6 1.7下面哪个程序负责HDFS数据存储。 (5)

HDfS中的block默认保存几份？ (5)

下列哪个程序通常与NameNode在一个节点启动？ (5)

Hadoop作者 (6)

HDFS默认Block Size (6)

下列哪项通常是集的最主要瓶颈： (6)

关于SecondaryNameNode哪项是正确的？ (6)

2 3多选题 (7)

2.1

2.2

2.3

2.4

2.5

下列哪项可以作为集的管理？ (7)

配置机架感知的下面哪项正确： (7)

Client端上传文件的时候下列哪项正确？ (7)

下列哪个是Hadoop运行的模式： (7)

Cloudera提供哪几种安装CDH的方法？ (7)

判断题 (8)

3.1

3.2

3.3

Ganglia不仅可以进行监控，也可以进行告警。（正确） (8)

Block Size是不可以修改的。（错误） (8)

Nagios不可以监控Hadoop集，因为它不提供Hadoop支持。（错误）

3.4如果NameNode意外终止，SecondaryNameNode会接替它使集继续工作。（错误） (8)

3.5Cloudera CDH是需要付费使用的。（错误） (8)

Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错

3.15

集内每个节点都应该配RAID ，这样避免单磁盘损坏，影响整个节点运行。（错误）.................................................................................................................93.16

因为HDFS 有多个副本，所以NameNode 是不存在单点问题的。（错误）93.17

3.18

3.19

误）

3.20

每个map 槽就是一个线程。（错误）.......................................................9Mapreduce 的input split 就是一个block 。（错误）..............................10NameNode 的Web UI 端口是50030，它通过jetty 启动的Web 服务。（错10Hadoop 环境变量中的HADOOP_HEAPSIZE 用于设置所有Hadoop 守护线程的内存。

它默认是200GB 。（错误）.............................................................10DataNode 首次加入cluster 的时候，如果log 中报告不兼容文件版本，那3.21

需要NameNode 执行“Hadoop namenode -format”操作格式化磁盘。（错误）......10问答题（一）. (10)

4 4.1

Hadoop 集可以运行的3个模式？........................................................10单机（本地）模式中的注意点？................................................................10伪分布模式中的注意点？..........................................................................10VM 是否可以称为Pseudo ？....................................................................10全分布模式又有什么注意点？...................................................................10Hadoop 是否遵循UNIX 模式？...............................................................11Hadoop 安装在什么目录下？...................................................................11Namenode 、Jobtracker 和tasktracker 的端口号是？............................11Hadoop 的核心配置是什么？...................................................................11那当下又该如何配置？..............................................................................11RAM 的溢出因子是？...............................................................................11fs.mapr.working.dir 只是单一的目录？....................................................l 的3个主要属性？.....................................................

.........11如何退出输入模式？.................................................................................11当你输入hadoopfsck/造成“connectionrefusedjavaexception’”时，系4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

4.10

4.11

4.12

4.13

4.14

4.15

统究竟发生了什么？...............................................................................................11我们使用Ubuntu 及Cloudera ，那么我们该去哪里下载Hadoop ，或者是默认就与Ubuntu 一起安装？ (11)

4.16

4.17

4.18

4.19

4.20

4.21

4.22

4.23

4.24“jps”命令的用处？................................................................................11如何重启Namenode ？............................................................................11Fsck 的全名？...........................................................................................12如何检查Namenode 是否正常运行？......................................................acker 命令的作用？...........................................................12/etc/init.d 命令的作用是？.......................................................................12如何在浏览器中查Namenode ？..........................................................12如何从SU 转到Cloudera ？ (12)

4.25 4.26 4.27 4.28 4.29 4.30 4.31 4.32 4.33 4.34 4.35 4.36 4.37 4.38 4.39 4.40 4.41 4.42 4.43 4.44 4.45启动和关闭命令会用到哪些文件？ (12)

Slaves由什么组成？ (12)

Masters由什么组成？ (12)

hadoop-env.sh是用于做什么的？ (12)

Master文件是否提供了多个入口？ (12)

hadoop-env.s件当下的位置？ (12)

在Hadoop_PID_DIR中，PID代表了什么？ (12)

/var/hadoop/pids用于做什么？ (12)

hadoop-metrics.properties文件的作用是？ (12)

Hadoop需求什么样的网络？ (13)

全分布式环境下为什么需求password-lessSSH？ (13)

这会导致安全问题吗？ (13)

SSH工作的端口号是？ (13)

SSH中的注意点还包括？ (13)

为什么SSH本地主机需要密码？ (13)

如果在SSH中添加key，是否还需要设置密码？ (13)

假如Namenode中没有数据会怎么样？ (13)

当JobTracker宕掉时，Namenode会发生什么？ (13)

是客户端还是Namenode决定输入的分片？ (13)

是否可以自行搭建Hadoop集？ (13)

是否可以在Windows上运行Hadoop？ (13)

5问答题（二） (13)

5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9写出以下执行命令 (13)

简述一下hdfs的数据压缩算法，工作中用的是那种算法，为什么？ (14)

三个datanode，当有一个datanode出现错误会怎样？ (14)

hdfs原理，以及各个模块的职责？ (14)

哪个进程通常与namenode在一个节点启动？并做分析 (16)

hdfs的体系结构？ (16)

HDFS，replica如何定位 (17)

hadoop分布式集搭建HDFS存储的机制? (17)

hdfs的client端，复制到第三个副本时宕机，hdfs怎么恢复保证下次写第三

副本?18

5.10 5.11 5.12 5.13 5.14 5.15block块信息是先写dataNode还是先写nameNode? (18)

Hive的join有几种方式，怎么实现join的？ (18)

hive内部表和外部表的区别？ (19)

hive是如何实现分区的？ (19)

hive支持not in吗？ (19)

Hive有哪些方式保存元数据，各有哪些优缺点。 (19)

5.16 5.17 5.18 5.19 5.20hive如何优化 (19)

hive能像关系数据库那样，建多个库吗？ (19)

hive中的压缩格式RCFile、TextFile、SequenceFile各有什么区别？.19 hive相对于Oracle来说有那些优点？ (20)

Hive的sort by和order by的区别 (20)

1单选题

1.1下面哪个程序负责HDFS数据存储。

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

答案C datanode

1.2HDfS中的block默认保存几份？

a)3份

b)2份

c)1份

d)不确定

答案A默认3分

1.3下列哪个程序通常与NameNode在一个节点启动？

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

答案D，此题分析：

hadoop的集是基于master/slave模式，namenode和jobtracker属于master，datanode和tasktracker属于slave，master只有一个，而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上，所以通常secondary NameNode（运行在单独的物理机器上）和NameNode运行在不同的机器上。JobTracker和TaskTracker

JobTracker对应于NameNode

TaskTracker对应于DataNode

DataNode和NameNode是针对数据存放来而言的

JobTracker和TaskTracker是对于MapReduce执行而言的

mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：obclient，JobTracker与TaskTracker。

1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到Jobtracker，然后由JobTracker创建每一个Task（即MapTask和

688IT编程网

Hadoop 100道面试题及答案解析

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Hadoop 100道面试题及答案解析

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式