使⽤IntelliJIDEA导⼊Spark最新源码及编译Spark源代码(博主强烈推荐)
前⾔
其实啊,⽆论你是初学者还是具备了有⼀定spark编程经验,都需要对spark源码⾜够重视起来。
本⼈,肺腑之⼰见,想要成为⼤数据的⼤⽜和顶尖专家,多结合源码和操练编程。
准备⼯作
1、scala 2.10.4(本地的安装)
2、Jdk1.7+ 或 jdk1.8+ (本地的安装)
3、IntelliJ IDEA
另外,最后还是建议⼤家开始先使⽤ pre-built 的 Spark,对 Spark 的运⾏、使⽤⽅法有所了解,编写了⼀些 Spark 应⽤程序后再展开源代码的阅读,并尝试修改源码,进⾏⼿动编译。
总体流程
1、从 Github 导⼊ Spark ⼯程
打开IntelliJ IDEA 后,在菜单栏中选择VCS→Check out from Version Control→Git,之后在 Git Repository URL 中填⼊ Spark 项⽬的地址,并指定好本地路径,如下图所⽰。
或者,我们可以直接先下载好,⽐如我这⾥,已经下载好了
解压,
提前,先准备好
对于spark源码的⽬录结构
1、编译相关 : sbt 、assembly、project
2、spark核⼼:core
3、Spark Lib : streaming 、 sql 、graphx 、mllib
4、运⾏脚本和配置: bin 、sbin 、conf
scala python 5、虚拟化 : ec2 、docker 、dev
6、式例: examples 、data
7、部署相关: yarn
8、python⽀持: python
9、repl : repl
10、 3pp : externals
现在,我开始,进⼊spark源码导⼊⼯作。
先来关闭,已有的⼯程。
File -> Close Project
得到,如下
选择,Import Project
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论