Centos7下hadoop安装与伪分布式搭建,详细
最近在学习⼤数据,需要⽤到hadoop,记录⼀下在centos7系统下搭建的步骤,与碰到的问题
对于hadoop环境的搭建与安装⾸先需要明⽩⾃⼰要做什么(初学者不要⼀股脑的照着⽹上的教程敲敲敲,事后却不知道⾃⼰在做什么),这是我总结的⼀些步骤:
1. 安装java,配置java环境变量
2. 解压hadoop,配置hadoop环境变量
3. 修改ssh通讯,修改为免密码登录
4. 修改Hadoop配置⽂件
java安装完整教程5. 启动hadoop,访问Namenode管理页⾯
6. 运⾏WordCount样例查看效果
以上就是完整安装步骤,下⾯正式开始:
1、安装java,配置Java环境
下载java,去下载java⼆进制⽂件到本地,使⽤wget命令(命令解释:前⾯为设置cookie,⽤来同意oracle的协议,如果不设置,就会下载失败,只有⼏K⼤⼩,后⾯的为jdk的下载地址,我这⾥下载的是jdk 1.8)
wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%acle%2F; oraclelicense=accept-securebackup-cookie"
去/usr/local⽂件⽬录下创建⼀个java⽂件夹(为了⽅便管理,软件⼀般放在/usr/local该⽬录下),进⼊/usr/local/java⽬录,把下载好的jdk解压到该⽂件夹下
sudo mkdir /usr/local/java
cd /usr/local/java
sudo tar -xzvf 上⼀步中下载的JDK所在位置
例如我的:sudo tar -xzvf /home/wj/
现在开始配置环境变量
sudo vim /etc/profile
在/etc/profile最下⾯添加(解释:JAVA_HOME是指⽂件存放的⽬录,可以根据⾃⼰⽬录进⾏修改;CLASSPATH是指javac环境变量;PATH是指java环境变量)
export JAVA_HOME=/usr/local/java/jdk1.8.0_202
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
配置如图⽚所⽰:
保存退出之后,进⾏更新环境变量,⾄此java安装完成,可以通过查看JDK版本验证
source /etc/profile
java -version
2、解压hadoop,配置hadoop环境变量
配置环境变量⼤同⼩异,与前⾯配置java环境类似,将⽂件解压到相应⽬录,修改/etc/profile⽂件,然后更新环境变量,输⼊命令验证
⾸先去下载程序包,选择相应版本的合适的链接地址(不同的镜像地址,下载速度可能有很⼤不同,尽量选⼀个快的),这⾥我下载的是hadoop2.9版本
wget mirrors.tuna.tsinghua.edu/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.
接着去/usr/local/⽬录下创建hadoop⽬录,然后进⼊/usr/local/hadoop⽬录下将下载好的hadoop⽂件解压在该⽂件夹下
sudo mkdir /usr/local/hadoop
cd /usr/local/hadoop
sudo tar -xzvf 上⼀步中下载的hadoop所在位置
例如我的:sudo tar -xzvf /home/wj/hadoop-2.9.
开始配置环境变量,并在/etc/profile⽂件下⾯添加HADOOPO_HOME,并修改PATH
vim /etc/profile
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.9.2
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
配置如图⽚所⽰(接第⼀部分配置java环境变量):
保存退出之后,进⾏更新环境变量,⾄此hadoop环境变量设置完成,可以通过查看hadoop版本验证
source /etc/profile
hadoop version
3、修改ssh通讯,修改为免密码登录
⾸先初始化ssh,会在⽤户主⽬录中⽣成.ssh⽂件夹,然后⽣成公私密钥对,把id_rsa.pub中的⽂件内容存⼊到authorized_keys中
ssh localhost #输⼊yes
cd ~/.ssh/
ssh-keygen -t rsa #输⼊部分全部按回车键
cat id_rsa.pub > authorized_keys
在centos7中需要继续修改/etc/ssh/sshd_config配置⽂件
sudo vim /etc/ssh/sshd_config
到RSAAuthentication yes 与 PubkeyAuthentication yes,把注释去掉,如果没有这些字段就⼿动添加,将StrictModes yes的注释去掉,并将yes改为no,最终这三处改为下图所⽰部分:
重启ssh服务,并登录ssh localhost验证是否已经可以免密码登录
service sshd restart #重启sshd服务
ssh localhost #注意时候需要输⼊密码
exit #退出ssh localhost的登录
4、修改hadoop配置⽂件
主要修改l 、 l 与hadoop-env.sh⽂件
修改hadoop安装⽬录下./etc/l⽂件, 将以下内容添加进⽂件中
<configuration>
<property>
<name&p.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
修改hadoop安装⽬录下./etc/l⽂件,将以下内容添加进⽂件中
<configuration>
<property>
<name&plication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
修改hadoop安装⽬录下./etc/hadoop/hadoop-env.sh⽂件,将export JAVA_HOME=${JAVA_HOME}中的参数值设置为JAVA_HOME的真实⽂件路径(否则可能在格式化NameNode的时候会报JAVA_HOME⽆法到的错误导致格式化失败)
echo $JAVA_HOME #通过该命令可以查看JAVA_HOME的值,即地址路径
5、启动hadoop,访问Namenode管理页⾯
sudo -R +w /usr/local/hadoop
hdfs namenode -format
start-dfs.sh
jps #通过查看启动的java进程验证hadoop是否成功启动
查看NameNode管理页⾯
6、运⾏WordCount样例查看效果
使⽤hadoop fs -mkdir /input 在hadoop虚拟根⽬录下创建input⽂件夹,然后⼀个任意⽂本⽂件(这⾥使⽤/etc/hosts⽂件)上传⾄该input⽂件夹内,运⾏wordcount程序,查看输出output⽂件夹下的结果
hadoop fs -mkdir /input #在hadoop数据域内创建input⽂件夹
hadoop fs -put /etc/hosts /input #将hosts作为待统计的⽂本⽂件上传⾄input⽂件夹下
hadoop fs -ls / #查看⽂件信息
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /input /output #运⾏wordcount⽰例hadoop fs -ls / #运⾏此命令这时会发现多出了⼀个output⽂件夹
hadoop fs -ls /output #查看output⽂件夹下内容,会发现有_SUCCESS与part-r-00000这两个⽂件
hadoop fs -cat /output/part-r-00000 #输出的即为统计出来的hosts⽂件下的字符统计
统计出来的结果
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论