基于Hadoop分布式集搭建方法研究--688IT编程网

2021.07科学技术创新基于Hadoop 分布式集搭建方法研究

罗利

（湖南信息职业技术学院，

湖南长沙410299）Hadoop 是开源的大数据平台，其分布式文件系统HDFS 进行数据存储，计算框架MapReduce 做数据计算。用户不需了解

底层实现细节就可以实现海量数据存储计算。实际生产过程中Hadoop 平台搭建需

要多个物理服务器，但是学生学习过程中并没有真实的服务器供学习。1环境准备

Hadoop 完全分布式集搭建环境需要至少3台服务器，本实验选择在VMware WorkStation 15中创建3台虚拟机，各系统环境要求集节点规划信息如表1所示。

1.1安装JDK

CentOS7预装了OpenJDK ，先删除OpenJDK 。下载匹配环境

的JDK jar 包，解压，

将JDK 路径添加到/etc/profile 末尾:export JAVA_HOME=/opt/module/jdk1.8.0_144

export PATH=$PATH:$JAVA_HOME/bin

source /etc/profile 使文件生效。java -version 检查JDK 是否

安装成功，如果成功，会出现java 版本号等信息。

1.2安装Hadoop

2.7.2

本文采用的Hadoop 版本为Apache Hadoop2.7.2。下载匹配

环境的Hadoop jar 包，解压，

修改/etc/profile 文件：export HADOOP_HOME=/opt/module/hadoop-2.7.2

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

source /etc/profile 使文件生效，hadoop version 检查Hadoop

是否安装成功。

1.3克隆3台虚拟机

将上述已经安装好JDK 和Hadoop 的节点克隆2个节点，对新节点的MAC 地址重新生成，

保证唯一性。1.4修改主机名

编辑/etc/hostname 文件，修改3个节点主机名分别为master 、slave1、slave2，

用hostname 查看是否修改成功。修改文件vi /etc/hosts ，建立IP 地址和主机名映射关系：

192.168.200.100master

192.168.200.101slave1

192.168.200.102slave2

再关闭防火墙，在/etc/selinux/confi 中设置

“SELINUX=disabled ”

，systemctl disable firewalld 永久关闭防火墙。1.5SSH 免密登录配置SSH 免密登录，实现多个节点之间不输入密码即可登录成功。SSH 安全外壳协议，以master 节点免密登录slave1为例，配置如下：1.5.1生成公钥和私钥。在master 节点的.ssh 目录（在用户家目录）下，执行ssh-keygen -t rsa ，执行三个回车，生成公钥id_rsa.pub 和私钥id_rsa 。1.5.2拷贝公钥到需要免密登录的目标节点。执行ssh-copy-id slave1，将公钥拷贝到slave1节点上。至此，在master 节点可以ssh slave1直接免密登录。同理，在slave1上需要配置免密登录maser 、slave2，slave2上需要配置免密登录maser 、slave1。2配置集[3]

在master 节点配置以下6个配置文件。2.1hadoop-env.sh 、yarn-env.sh 、mapred-env.sh 。这3个文件中分别修改JAVA_HOME 环境变量，

修改jdk 安装路径:export JAVA_HOME=/opt/module/jdk1.8.0_l 。指定HDFS 中NameNode 的地址和Hadoop 运行时产生文件的存储目录。

<property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><property><name&p.dir</name>作者简介：罗利（1992-），汉族，籍贯：湖南浏阳，学历：研究生，助教，研究方向：高职教育、

大数据开发。摘要：Hadoop 是大数据分布式基础架构之一，主要解决海量数据的存储和计算。文中详细介绍了Hadoop 集搭建的环境

准备、配置过程、测试使用，运行单词统计程序，

该平台可以满足轻量化的学习需求。关键词：Hadoop ；大数据；分布式集中图分类号:TP311.1文献标识码:A 文章编号:2096-4390(2021)07-0099-02

表1集环境规划信息主机名 IP 地址角说明服务信息环境说明

master 192.168.200.100 主节点

NameNode DataNode NodeManager slave1 192.168.200.101 从节点 DataNode ResourceManager NodeManager slave2 192.168.200.102 从节点 SecondaryNameNode DataNode 操作系统：CentOS

Li nux release 7.5.1804 (Core) . 64

位 Hadoop 版本：Ha doop

2.7.2 JAVA 版本：build

1.8.0_144-b01

99--

科学技术创新2021.07

<value>/opt/module/hadoop-2.7.2/data/tmp</value>

</property>

l。指定HDFS副本数为3和辅助名称节点配置。

<name&plication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

<value>slave2:50090</value>

</property>

l。指定Reducer获取数据的方式为mapreduce_shuffle和YARN的ResourceManager的地址。

<name&demanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name&sourcemanager.hostname</name>

<value>slave1</value>

</property>

执行l.l复制重命名文件，再修改指定MapReducer运行在yarn框架：<property>

<name>mapreduce.framework.name</name>

</property>

2.6所有配置文件分发到slave1和slave2节点。

[root@master hadoop-2.7.2]#scp-r etc/hadoop/root@slave1: /opt/module/hadoop-2.7.2/etc/

[root@master hadoop-2.7.2]#scp-r etc/hadoop/root@slave2: /opt/module/hadoop-2.7.2/etc/

3启动集并查看状态

第一次启动集，先格式化NamaNode，再启动集。master 节点执行hadoop namenode-format格式化NamaNode，配置slaves文件，起集:

master

slave1

slave2

在master节点直接用start-all.sh命令启动所有进程，jps查看进程：master节点运行了NamaNode、DataNode、NodeManager 进程，slave1节点运行ResourceManager、DataNode、NodeManager 进程，slave2节点运行DataNode、NodeManager、SecondaryNameNode进程。

以上节点各项服务正常启动后，WEB页面可查看Hadoop 集的运行状态，浏览器中输入NameNode IP:50070打开HDFS的管理界面。

4运行应用程序

集搭建成功后在集上运行官方WordCount案例，统计每个单词出现的次数。

4.1在Linux本地/opt/module/hadoop2.7.2下新建目录winput，并创建测试文件，写入内容：

[root@master winput]#

hadoop hdfs yarn mapreduce

spark hbase hdfs

hadoop hadoop spark

4.2HDFS根目录下创建目录testinput：

[root@master hadoop-2.7.2]#hadoop fs-mkdir/testinput

4.3本地文件系统的上传到HDFS的/testinput目录下：

[root@master hadoop-2.7.2]#hadoop fs-put /testinput/

4.4运行wordcount案例，将输出结果输出到/testoutput下：

[root@master hadoop-2.7.2]#hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount//testoutput

4.5查看运行结果。

[root@master hadoop-2.7.2]#hadoop fs-cat/testoutput/*

hadoop与spark的区别与联系hadoop3

hbase1

hdfs2

mapreduce1

spark2

yarn1

5结论

本文利用虚拟机搭建了基于Hadoop的大数据实验平台，以1个master节点和2个slave节点为例，介绍了Hadoop集分布式搭建的方法，最后使用该平台进行单词统计实验，经过测试实践，该搭建方法是正确的。说明利用普通PC机集环境简单方便、成本低廉，对课程教学提供易于实现的解决方案，为后续学习打下坚实的基础。

参考文献

[1]朱颢东，冯嘉美，张志锋.基于Hadoop的大数据处理平台研究[J].华中师范大学学报(自然科学版),2017(51):590.

[2]刘顺.基于Hadoop集的词频统计应用[J].科学技术创新，2020.

100 --

688IT编程网

基于Hadoop分布式集搭建方法研究

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于Hadoop分布式集搭建方法研究

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式