Hadoop集安装详细步骤--688IT编程网

Hadoop集安装详细步骤|Hadoop安装配置

文章分类：综合技术

Hadoop集安装

首先我们统一一下定义，在这里所提到的Hadoop是指Hadoop Common，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。

hadoop分布式集搭建Hadoop在windows下还未经过很好的测试，所以笔者推荐大家在linux（cent os 5.X）下安装使用。

准备安装Hadoop集之前我们得先检验系统是否安装了如下的必备软件：ssh、rsync和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。可以使用yum install rsync来安装rsync。一般来说ssh是默认安装到系统中的。Jdk1.6的安装方法这里就不多介绍了。

确保以上准备工作完了之后我们就开始安装Hadoop软件，假设我们用三台机器做Hadoop集，分别是：192.168.1.111、192.168.1.112和192.168.1.113（下文简称111，112和113），且都使用root用户。

下面是在linux平台下安装Hadoop的过程：

在所有服务器的同一路径下都进行这几步，就完成了集Hadoop软件的安装，是不是很简单？没错安装是很简单的，下面就是比较困难的工作了。

集配置

根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由

NameNode/DataNode 和JobTracker/TaskTracker这几个角构成。

Hadoop的DFS需要确立NameNode与DataNode角，一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角，一般JobTracker与NameNode共用一台机器作为master，而TaskTracker与DataNode同属于slave。至于NameNode/DataNode和JobTracker/TaskTracker的概念这里就不多讲了，需要了解的可以参看相关文档。

在这里我们使用111作为NameNode与JobTracker，其它两台机器作为DataNode和TaskTracker，具体的配置如下：

环境的配置

在$HADOOP_HOME/conf/hadoop-env.sh中定义了Hadoop启动时需要的环境变量设置，其中我们至少需要配置JAVA_HOME（Jdk的路径）变量；另外我们一般还需要更改HADOOP_LOG_DIR（Hadoop的日志路径）这个变量，默认的设置是“export HADOOP_LOG_DIR=${HADOOP_HOME}/logs”，一般需要将其配置到一个磁盘空间比较大的目录下。

Hadoop核心程序配置

Hadoop 包括一组默认配置文件（$HADOOP_HOME/src目录下的

l, l 和

l），大家可以先好好看看并理解默认配置文件中的那些属性。虽然默认配置文件能让Hadoop核心程序顺利启动，但对于开发人员来说一般需要自己的来设置一些常规配置以满足开发和业务的需求，所以我们需要对默认配置文件的值进行覆盖，具体方法如下。

$HADOOP_HOME/l是Hadoop的核心配置文件，对应并覆盖l中的配置项。我们一般在这个文件中增加如下配置：

1.<configuration>

2. <property>

3. <!-- 用于dfs命令模块中指定默认的文件系统协

议 -->

4. <name>fs.default.name</name>

5. <value>hdfs://192.168.1.111:9000</value>

6. </property>

7.</configuration>

$HADOOP_HOME/l是HDFS的配置文件，对应并覆盖

1.<configuration>

2. <property>

3.

4. <name>dfs.name.dir</name>

5. <value>/opt/hadoop/data/dfs.name.dir</value>

6. </property>

7. <property>

8.

9. <name>dfs.data.dir</name>

10. <value>/opt/hadoop/data/dfs.data.dir</value>

11. </property>

12. <property>

13. <!-- 是否对DFS中的文件进行权限控制(测试中一般

用false)-->

14. <name>dfs.permissions</name>

15. <value>false</value>

16. </property>

17.</configuration>

$HADOOP_HOME/l是Map/Reduce的配置文件，对应并覆盖l中的配置项。我们一般在这个文件中增加如下配置：

1.<configuration>

2. <property>

3. <!-- 用来作JobTracker的节点的(一般与NameNode

保持一致) -->

4. <name>acker</name>

5. <value>192.168.1.111:9001</value>

6. </property>

7. <property>

8. <!-- map/reduce的系统目录（使用的HDFS的路

径） -->

9. <name>mapred.system.dir</name>

10. <value>/system/mapred.system.dir</value>

11. </property>

12. <property>

13. <!-- map/reduce的临时目录（可使用“,”隔开，设

置多重路径来分摊磁盘IO） -->

14. <name>mapred.local.dir</name>

15. <value>/opt/hadoop/data/mapred.local.dir</value

16. </property>

17.</configuration>

主从配置

在$HADOOP_HOME/conf目录中存在masters和slaves这两个文件，用来做Hadoop的主从配置。上面已经提到了Hadoop主要由NameNode/DataNode 和JobTracker/TaskTracker构成，在主从配置里我们一般将NameNode和JobTracker列为主机，其它的共为从机，于是对于此处的配置应该是：

Masters代码

1.19

2.168.1.111

Slaves代码

1.19

2.168.1.112

2.192.168.1.113

如果你对以上介绍的配置项做了正确的配置，那么你的Hadoop集只差启动和初体念了，当然，在$HADOOP_HOME/conf目录下还包括其它的一些配置文件，但那些都不是必须设置的，如果有兴趣你可以自己去了解了解。

值得注意的是Hadoop集的所有机器的配置应该保持一致，一般我们在配置完master后，使用scp将配置文件同步到集的其它服务器上。

启动

经过以上两个步骤，Hadoop的安装和配置已经OK了，那么下面我们就来启动Hadoop集。启动前我们需要做一些准备，因为集的启动是从NameNode

开始的，于是DataNode的运行需要NameNode的远程调用，Hadoop使用ssh命令远程运行DataNode节点，这就是为什么Hadoop需要ssh的支持。我们可以想象一下，如果集里有100台机器，那么我们就需要输入100遍主机的访问密码，但如果配置SSH使用无密码公钥认证的方式，就解决了此问题。

简单的说，在111上需要生成一个密钥对，即一个私钥和一个公钥。将公钥拷贝到112和113上，如此一来，当111向112发起ssh连接的时候，112上就

会生成一个随机数并用111的公钥对这个随机数进行加密，并且发送给111，111收到这个加密的数以后用私钥进行解密，并将解密后的数返回112，112确认解密的数无误后就允许111进行连接了。这就完成了一次公钥认证过程。

公钥生成的步骤如下：

然后将id_rsa.pub的内容复制到每个机器（也包括本机）的

~/.ssh/authorized_keys文件中。如果authorized_keys不存在，则使用touch ~/.ssh/authorized_keys生成一个；如果该文件已经存在，则追加内容进去就OK了，这里我们推荐使用如下命令：

经过以上步骤，我们的无密码访问就配置好了，可以通过如下命令进行验证：

如此一来，就可以正常启动Hadoop集了。启动方式如下：

我们用如下命令验证一下是否启动成功：

如果没有错误提示或者出现文件列表，那么恭喜你，Hadoop成功启动了，另外，我们可以通过访问192.168.1.111:50070来查看hdfs的状态，访问192.168.1.111:50030来查看map/reduce的状态。

如果出现错误，或Hadoop集未启动，可以查看$HADOOP_HOME/logs/下的日志文件。

688IT编程网

Hadoop集安装详细步骤

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

Hadoop集安装详细步骤

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则