Centos7下hadoop安装与伪分布式搭建,详细--688IT编程网

Centos7下hadoop安装与伪分布式搭建，详细

最近在学习⼤数据，需要⽤到hadoop，记录⼀下在centos7系统下搭建的步骤，与碰到的问题

对于hadoop环境的搭建与安装⾸先需要明⽩⾃⼰要做什么（初学者不要⼀股脑的照着⽹上的教程敲敲敲，事后却不知道⾃⼰在做什么），这是我总结的⼀些步骤：

1. 安装java，配置java环境变量

2. 解压hadoop，配置hadoop环境变量

3. 修改ssh通讯，修改为免密码登录

4. 修改Hadoop配置⽂件

java安装完整教程

5. 启动hadoop，访问Namenode管理页⾯

6. 运⾏WordCount样例查看效果

以上就是完整安装步骤，下⾯正式开始：

1、安装java，配置Java环境

下载java，去下载java⼆进制⽂件到本地，使⽤wget命令(命令解释：前⾯为设置cookie，⽤来同意oracle的协议，如果不设置，就会下载失败，只有⼏K⼤⼩，后⾯的为jdk的下载地址，我这⾥下载的是jdk 1.8)

wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%acle%2F; oraclelicense=accept-securebackup-cookie"

去/usr/local⽂件⽬录下创建⼀个java⽂件夹（为了⽅便管理，软件⼀般放在/usr/local该⽬录下），进⼊/usr/local/java⽬录，把下载好的jdk解压到该⽂件夹下

sudo mkdir /usr/local/java

cd /usr/local/java

sudo tar -xzvf 上⼀步中下载的JDK所在位置

例如我的：sudo tar -xzvf /home/wj/

现在开始配置环境变量

sudo vim /etc/profile

在/etc/profile最下⾯添加（解释：JAVA_HOME是指⽂件存放的⽬录，可以根据⾃⼰⽬录进⾏修改；CLASSPATH是指javac环境变量；PATH是指java环境变量）

export JAVA_HOME=/usr/local/java/jdk1.8.0_202

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$JAVA_HOME/bin:$PATH

配置如图⽚所⽰：

保存退出之后，进⾏更新环境变量，⾄此java安装完成，可以通过查看JDK版本验证

source /etc/profile

java -version

2、解压hadoop，配置hadoop环境变量

配置环境变量⼤同⼩异，与前⾯配置java环境类似，将⽂件解压到相应⽬录，修改/etc/profile⽂件，然后更新环境变量，输⼊命令验证

⾸先去下载程序包，选择相应版本的合适的链接地址（不同的镜像地址，下载速度可能有很⼤不同，尽量选⼀个快的），这⾥我下载的是hadoop2.9版本

wget mirrors.tuna.tsinghua.edu/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.

接着去/usr/local/⽬录下创建hadoop⽬录，然后进⼊/usr/local/hadoop⽬录下将下载好的hadoop⽂件解压在该⽂件夹下

sudo mkdir /usr/local/hadoop

cd /usr/local/hadoop

sudo tar -xzvf 上⼀步中下载的hadoop所在位置

例如我的：sudo tar -xzvf /home/wj/hadoop-2.9.

开始配置环境变量，并在/etc/profile⽂件下⾯添加HADOOPO_HOME，并修改PATH

vim /etc/profile

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.9.2

export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置如图⽚所⽰（接第⼀部分配置java环境变量）：

保存退出之后，进⾏更新环境变量，⾄此hadoop环境变量设置完成，可以通过查看hadoop版本验证

source /etc/profile

hadoop version

3、修改ssh通讯，修改为免密码登录

⾸先初始化ssh，会在⽤户主⽬录中⽣成.ssh⽂件夹，然后⽣成公私密钥对，把id_rsa.pub中的⽂件内容存⼊到authorized_keys中

ssh localhost #输⼊yes

cd ~/.ssh/

ssh-keygen -t rsa #输⼊部分全部按回车键

cat id_rsa.pub > authorized_keys

在centos7中需要继续修改/etc/ssh/sshd_config配置⽂件

sudo vim /etc/ssh/sshd_config

到RSAAuthentication yes 与 PubkeyAuthentication yes，把注释去掉，如果没有这些字段就⼿动添加，将StrictModes yes的注释去掉，并将yes改为no，最终这三处改为下图所⽰部分：

重启ssh服务，并登录ssh localhost验证是否已经可以免密码登录

service sshd restart #重启sshd服务

ssh localhost #注意时候需要输⼊密码

exit #退出ssh localhost的登录

4、修改hadoop配置⽂件

主要修改l 、 l 与hadoop-env.sh⽂件

修改hadoop安装⽬录下./etc/l⽂件，将以下内容添加进⽂件中

<name&p.dir</name>

<value>file:/usr/local/hadoop/tmp</value>

<description>Abase for other temporary directories.</description>

</property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

修改hadoop安装⽬录下./etc/l⽂件，将以下内容添加进⽂件中

<name&plication</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/tmp/dfs/data</value>

</property>

</configuration>

修改hadoop安装⽬录下./etc/hadoop/hadoop-env.sh⽂件，将export JAVA_HOME=${JAVA_HOME}中的参数值设置为JAVA_HOME的真实⽂件路径（否则可能在格式化NameNode的时候会报JAVA_HOME⽆法到的错误导致格式化失败）

echo $JAVA_HOME #通过该命令可以查看JAVA_HOME的值，即地址路径

5、启动hadoop，访问Namenode管理页⾯

sudo -R +w /usr/local/hadoop

hdfs namenode -format

start-dfs.sh

jps #通过查看启动的java进程验证hadoop是否成功启动

查看NameNode管理页⾯

6、运⾏WordCount样例查看效果

使⽤hadoop fs -mkdir /input 在hadoop虚拟根⽬录下创建input⽂件夹，然后⼀个任意⽂本⽂件(这⾥使⽤/etc/hosts⽂件)上传⾄该input⽂件夹内，运⾏wordcount程序，查看输出output⽂件夹下的结果

hadoop fs -mkdir /input #在hadoop数据域内创建input⽂件夹

hadoop fs -put /etc/hosts /input #将hosts作为待统计的⽂本⽂件上传⾄input⽂件夹下

hadoop fs -ls / #查看⽂件信息

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /input /output #运⾏wordcount⽰例hadoop fs -ls / #运⾏此命令这时会发现多出了⼀个output⽂件夹

hadoop fs -ls /output #查看output⽂件夹下内容，会发现有_SUCCESS与part-r-00000这两个⽂件

hadoop fs -cat /output/part-r-00000 #输出的即为统计出来的hosts⽂件下的字符统计

统计出来的结果

688IT编程网

Centos7下hadoop安装与伪分布式搭建,详细

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Centos7下hadoop安装与伪分布式搭建,详细

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式