在Ubuntu⾥搭建spark环境
注意:1.搭建环境:Ubuntu64位,Linux(也有Windows的,我还没空试)
2.⼀般的配置jdk、Scala等的路径环境是在/etc/profile⾥配置的,我⾃⼰搭建的时候发现我⾃⼰在profile配置环境会有问题,⽐如说:我配置了spark,source了profile,启动spark是没问题的,但是当我想再次启动spark的时候,
就会启动失败,需要再source⼀遍profile,所以我把所有的需要配置环境的命令都写在了 ~/.bashrc⽂件⾥,只需要source⼀遍就好了。
3.我只是菜鸟,如果有什么地⽅说错了,⼤家⼀定要跟我说,我改。或者⼤家有更好的办法,⿇烦教我⼀下,谢谢!
⼀、设置SSH免密登⼊:
(⼀般Ubuntu⾃带客户端了,所以只需要装服务端即可。可通过命令:dpkg -l | grep ssh 查看是否安装有服务端和客户端,安装客户端命令:sudo apt-get install opendssh-client)
1、安装服务端,安装命令: sudo apt-get install openssh-server,可能会需要输⼊⽤户密码,输⼊按回
车继续。可能它还会询问是否继续,输⼊ Y 回车继续。安装成功后,使⽤命令 ssh localhost 测试安装的SSH是否能正常连接,连接需要输⼊⽤户的密码
2、设置免密码登录步骤:
(1)⽣成密钥,命令:ssh-keygen。执⾏过程中会要求你输⼊连接⽤的密码,不要输⼊任何东西,直接回车。系统会在~/.ssh⽬录⽣成密钥⽂件(id_rsa 私钥,id_rsa.pub公钥),执⾏成功的结果如图所⽰。
(2)将⽣成公钥的内容添加到authorized_keys⽂件中,命令:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
(3)修改authorized_keys和~/.ssh⽂件权限,命令:
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys
(4)设置成功后,可以验证⼀下是否成功,命令:ssh localhost ,如果不需要输⼊⽤户密码,即为设置成功。
⼆、JDK的安装与配置
1、解压JDK的安装包,解压命令:tar -zvxf -C /opt
2、配置环境变量,在 /etc/profile ⽂件中添加如下内容:
export JAVA_HOME=/opt/jdk1.8.0_181 # 配置JAVA_HOME
export CLASS_PATH=/opt/jdk1.8.0_181/lib # 配置类路径
export PATH=$PATH:$JAVA_HOME/bin # 添加bin路径到PATH,添加后可以在命令⾏中直接使⽤java相关命令
3、重新执⾏刚修改的/etc/profile⽂件,使配置的环境⽴即⽣效,命令: source /etc/profile
4、JDK安装配置完成之后,在命令⾏输⼊命令:java –version,检查JDK是否安装⽆误
三、Scala的安装与配置
1、解压Scala的安装包,解压命令:tar -zvxf scala-2. -C /opt
2、配置环境变量,在 /etc/profile ⽂件中添加如下内容:
export SCALA_HOME=/opt/scala-2.11.12 # 配置SCALA_HOME
export PATH=$PATH:$SCALA_HOME/bin # 添加bin⽬录到PATH
3、重新执⾏刚修改的/etc/profile⽂件,使配置的环境⽴即⽣效,命令: source /etc/profile
4、Scala安装配置完成之后,在命令⾏输⼊命令:scala,检查Scala是否安装⽆误。
四、Spark的安装与配置
1、解压Spark的安装包,解压命令: tar -zvxf spark-2.3. -C /opt
2、配置环境变量,在 /etc/profile ⽂件中添加如下内容:
export SPARK_HOME=/opt/spark-2.3.3-bin-hadoop2.7 # 配置SPARK_HOME
export PATH=$PATH:$SPARK_HOME/bin # 添加bin⽬录到PATH
3、重新执⾏刚修改的/etc/profile⽂件,使配置的环境⽴即⽣效,命令: source /etc/profile
4、修改Spark配置⽂件
(1)复制模板⽂件,将在Spark的conf⽬录中的plate、plate、sla
cd /opt/spark-2.3.3-bin-hadoop2.7/conf // 进⼊到配置⽂件夹中
sudo cp plate spark-env.sh // Spark环境相关
sudo cp plate log4j.properties // Spark⽇志相关
sudo plate slaves // Spark集节点
5、设置spark-2.3.3-bin-hadoop2.7⽂件夹可读可写可执⾏权限,命令:
cd /opt
sudo chmod 777 spark-2.3.3-bin-hadoop2.7/
6、Spark已经安装配置完成了,进⼊到Spark⽬录中的sbin路径下,运⾏ ./start-all.sh启动集,测试⼀下刚刚安装的Spark。
7、命令⾏输⼊spark-shell来检查spark是否安装⽆误,成功运⾏的画⾯如图:(spark默认是⽤Scala语
⾔,如果想⽤python编写看第9个步骤。)
ssh命令行8、Spark集启动完成后打开浏览器输⼊地址:localhost:8080,即可查看集的UI界⾯,没有出现UI界⾯,就返回去检查⼀下之前环境配置是否有问题,spark是否start-all。
9、可以在命令⾏直接启动pyspark,命令为 pyspark,启动成功后的画⾯如图:
以上搭建的环境只能让你在命令⾏模式编写spark,等我过段时间有空了再教⼤家在pycharm⾥搭建spark。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论