Ubuntu下安装Hadoop所有步骤教程,从虚拟机安装到Hadoop测试--688IT编程网

Ubuntu下安装Hadoop所有步骤教程，从虚拟机安装到Hadoop

测试

安装虚拟机VMware

注意: 1要选⾃定义⾼级

2第⼀次安装虚拟机，要选稍后安装操作系统

3选择Linux操作系统

4存储⽬录建议不要放在C盘

5处理器根据⾃⼰的电脑进⾏选择，电脑配置好，存储空间还很⼤的话可以改成2或4

6⽹络类型选择NAT;

7选择磁盘要选择创建新虚拟磁盘

8并选择将虚拟磁盘拆分成多个⽂件，有利于减少电脑的磁盘容量

9其他的都选默认模式即可

10完成虚拟机安装之后不要点击完成，点击⾃定义硬件进⾏Ubuntu的安装

下载ubuntu进⾏系统的安装

1在你点击⾃定义硬件之后选择左边菜单栏⾥的CD/DVD（SATA）

2然后看右边到使⽤IOS映像⽂件（在这之前你已经把Ubuntu已经下载好了，下载⼀定要去官⽹下载）

3点击虚拟机进⾏运⾏，之后就是选择中⽂等待安装即可（如果提⽰要安装tools⼯具，建议不要安装）

进⾏防⽕墙的关闭

关闭防⽕墙命令：Sudo ufw disable

查看防⽕墙的状态的命令：sudo ufw status

显⽰为不活动说明防⽕墙已经关闭。

安装SSH

1. Ubuntu是默认安装ssh客户端的，⽤命令：sudo dpkg- 1 | grep ssh进⾏查看。

如果返回包含“openssh-client”就表⽰已经安装了ssh客户端

1. 安装SSH服务端软件，安装命令:sudo apt-get install openssh-server

2. 重启ssh，命令:sudo /etc/init.d/ssh restart

下载Xshell和Xftp进⾏安装（安装到⾃⼰的电脑上，不是安装在虚拟机中）

在虚拟机看⾃⼰的IP地址的命令：ip addr，记住⾃⼰的ip地址，然后进⾏xshell的连接

之后在官⽹下载jdk和hadoop通过xshell中的xftp进⾏传输到虚拟机就⾏

注意：只需要传输到虚拟机的主⽬录就可以，这样⽅便查

安装jdk并进⾏jdk环境的配置

1．进⾏解压有两种⽅法

第⼀种：如果对⾃⼰敲命令⽐较⾃信可以按照课本进⾏命令输⼊解压

第⼆种：在主⽬录到传过来的解压包，点击右键，到解压到此处即可，解压之后把⽂件名修改的简短⼀点，这样后期配置jdk环境的时候⽐较⽅便（建议修改时只留jdk三个字母，把后⾯的版本号删除即可）

2．建⽴jdk连接（看课本进⾏命令的输⼊），这⼀步看⾃⼰意愿，建⽴连接的意思就是创建⼀个快捷⽅式

3．配置JDK环境变量也是两种⽅法(这⾥主要说第⼆种)

第⼀种：照着课本进⾏输⼊，该⽅法进⾏环境变量的配置时⽐较⿇烦

第⼆种如下图：到画横线的那⼀句，之后就可以进⼊⼀个⽂本⾥进⾏编辑，这样⽐较⽅便

进⼊⽂本之后就进⾏环境的配置就可以。下图是我的配置可以进⾏借鉴

要注意这⾥的地址要根据⾃⼰的情况填写，如果你不知道路径是在哪⾥可以到你解压的jdk⽂件右键点击属性进⾏查看

（1）使设置⽣效

命令:source ~/.bashrc

(2)配置完之后进⾏检验

命令:java -version

（注意：成功之后会显⽰版本号。如果提⽰没有成功，可能是你的权限太低通过输⼊：su这两个字母进⾏权限提升，如果认证失败，通过输⼊：sudo passwd（注意着两个字母中间有⼀个空格）进⾏密码的修改然后在通过：su进⾏权限提升即可。之后再通过课本中的命令进⾏检验。）

Hadoop的安装与环境变量的配置，与JDK步骤⼀致：下图是我的hadoop环境配置

（注意：判断成功与否命令不⼀样，判断Hadoop是否环境搭配成功

命令:whereis hdfs

命令:whereis start-all.sh，这两种命令都要输⼀下）

再次克隆出两台主机：通过虚拟机到上⽅菜单栏上的虚拟机—>管理——>点击克隆就可以了，⼀定要创建完整克隆，克隆出的电脑我在这⾥称作s1,s2主电脑称作m。你可以根据⾃⼰的意愿去配置。这样⽅便我下⾯的配置说明。

Hadoop的安装与完全分布式的安装（只安装完全分布式模式就可以了）

1. 通过命令:ip addr进⾏ip地址的获取（记住改地址，后⾯需要）

2. 修改主机名:sudo vi /etc/hostname进⼊之后将原有内容删除并修改成node1

3. 输⼊命令:sudo reboot进⾏重启使命令⽣效

4. 重复步骤2,3修改另外两台主机，修改成node2,node3

5. 映射ip地址及主机名（要在三台电脑都进⾏此操作）

通过命令:sudo vi /etc/hosts进⼊并在⽂件末尾添加：

Ip地址(m电脑的地址) node1

Ip地址(s1地址) node2

Ip地址(s2地址) node3

注意：这三⾏都要写上，地址就是你开头通过命令查的地址

1. 进⾏免密登陆：

（注意：这⼀步操作是基于你的三个虚拟机都打开的时候，如果你的电脑不能同时打开三个虚拟机就要看情况了。只能打开⼀个虚拟机，你就要到电脑⾥的服务，关闭⼀些软件，再试⼀试，如果还是不⾏那只能加⼀个内存条了。如果你电脑能打开两个虚拟机，你就要两个两个的进⾏连接，⽐如你只打开了m和s1，那你只需现在这两台电脑输⼊⼀下命令，再换成m和s2，然后是s1,s2）

1. 通过命令：ssh-keygen -t rsa⽣成秘钥对（要按三次回车）

2. 通过命令：ls ~/.ssh进⾏查看

3. 通过命令：（输⼊此命令是，你开的哪个虚拟机输⼊哪个命令，⽐如你只打开了m和s1，就只输⼊前两条就⾏）

ssh-copy-id -i ~/.ssh/id_rsa.pub node1

ssh-copy-id -i ~/.ssh/id_rsa.pub node2

ssh-copy-id -i ~/.ssh/id_rsa.pub node3

注意，是敲完⼀⾏执⾏完之后再敲，在执⾏的时候出现[yes/no]，要选择输⼊yes，不要只输⼊⼀个y

1. 输⼊命令：

ssh node1

查看主机的变化

1. 安装NTP，这⾥需要在三台虚拟机上都要安装

安装NTP服务命令:sudo apt-get install ntp

查看是否运⾏成功命令:sudo dpkg-1 | grep ntp

1. 设置hadoop配置⽂件也是有两种办法(这⾥也主要讲第⼆种⽅法)

1.按照课本进⾏修改

2.到你解压的hadoop⽂件夹，点击进⼊etc在到hadoop点击进⼊，根据需要配那些⽂件，点击进⼊进⾏修改就可以了。

（1）设置hadoop-env.sh，只需要配置这⼀句即可，根据⾃⼰的实际情况更改⽬录

（2）设置l，只需要改划横线的地⽅。

第⼀个划横线地⽅，根据⾃⼰的实际情况，你通过命令设置的主机名是什么你就写什么。我这⾥写的主机名是node1，其他地⽅不要改。

（3）设置l，这个直接照着敲就可以，这个dfs,replication主要是你克隆了⼏个主机，就写⼏就⾏。这⾥咱们克隆了两个主机。

(4) 设置l,⽂件夹⾥没有这个⽬录

1. 设置l

(6) 设置slavers⽂件。设置slaver⽂件，就是指定哪些主机是slavers。讲slavers⽂件中的原有内容全部删除。添加

node2

node3

1. 分发配置(两种⽅法)

将node1的配置⽂件分发⾄node2，node3

第⼀种：通过命令发送

命令:cd ~/hadoop/etc(说明：根据你⾃⼰的地址进⾏编写)

命令:scp -r hadoop(这个写你⾃⼰的⽤户名) hadoop@ node2:~/hadoop/etc（这⾥写你⾃⼰的地址）

命令:scp -r hadoop(这个写你⾃⼰的⽤户名) hadoop@ node3:~/hadoop/etc（这⾥写你⾃⼰的地址）

第⼆种⽅法：通过你的Xftp，把你node1配置好的⽂件先通过虚拟机传送到你的本机上，再送本机传送到node2和node3.

1. 格式化HDFS

在node1操作即可

命令:hdfs namenode -format

1. 启动和关闭hadoop

全部启动和关闭命令：

启动命令:start-all.sh

关闭命令:stop-all.sh

分步开启和关闭：

启动HDFS和YARN

虚拟机linux安装jdk

命令:start-hdfs.sh

命令:start-yarn.sh

关闭HDFS和YARN

命令:stop-hdfs.sh

命令: stop -yarn.sh

1. 验证hadoop进程

命令:jps

如果出现：SecondaryNameNode

NameNode

ResouceManager

这三个进程，说明hadoop启动成功。

13，测试Hadoop

1. 在Ubuntu操作系统的⽬录下，创建⼀个⽂本⽂件：

命令:cd ~

命令:

1. 在⽂件中输⼊以下内容，保存并退出

Hello word

Hello hadoop

1. 将上传到HDFS，命令如下：

688IT编程网

Ubuntu下安装Hadoop所有步骤教程,从虚拟机安装到Hadoop测试

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

Ubuntu下安装Hadoop所有步骤教程,从虚拟机安装到Hadoop测试

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性