使⽤IntelliJIDEA导⼊Spark最新源码及编译Spark源代码(博主强烈推荐)
前⾔
 其实啊,⽆论你是初学者还是具备了有⼀定spark编程经验,都需要对spark源码⾜够重视起来。
  本⼈,肺腑之⼰见,想要成为⼤数据的⼤⽜和顶尖专家,多结合源码和操练编程。
准备⼯作
 1、scala 2.10.4(本地的安装)
  2、Jdk1.7+  或 jdk1.8+ (本地的安装)
  3、IntelliJ IDEA
另外,最后还是建议⼤家开始先使⽤ pre-built 的 Spark,对 Spark 的运⾏、使⽤⽅法有所了解,编写了⼀些 Spark 应⽤程序后再展开源代码的阅读,并尝试修改源码,进⾏⼿动编译。
总体流程
  1、从 Github 导⼊ Spark ⼯程
打开IntelliJ IDEA 后,在菜单栏中选择VCS→Check out from Version Control→Git,之后在 Git Repository URL 中填⼊ Spark 项⽬的地址,并指定好本地路径,如下图所⽰。
或者,我们可以直接先下载好,⽐如我这⾥,已经下载好了
解压,
提前,先准备好
对于spark源码的⽬录结构
  1、编译相关    : sbt 、assembly、project
  2、spark核⼼:core
  3、Spark Lib  : streaming 、 sql 、graphx 、mllib
  4、运⾏脚本和配置: bin  、sbin 、conf
scala python
  5、虚拟化 : ec2 、docker 、dev
  6、式例: examples 、data
  7、部署相关: yarn
  8、python⽀持: python
  9、repl : repl
  10、 3pp : externals
现在,我开始,进⼊spark源码导⼊⼯作。
先来关闭,已有的⼯程。
File  ->  Close Project
得到,如下
选择,Import Project

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。