windows下spark开发环境配置
--本篇随笔由同事葛同学提供。
windows下spark开发环境配置
特注:windows下开发spark不需要在本地安装hadoop,但是需要、hadoop.dll等⽂件,前提是你已经安装了eclipse、maven、jdk等软件
spark⽀持jdk版本建议是1.8及以上,如果开发spark建议将jdk编译版本设置为1.8
我选择的spark是spark-1.4.,故以该版本为例
第⼀步:下载spark-1.4.到本地,并解压在本地⽬录
第⼆步:下载windows下hadoop⼯具包(分为32位和64位的),在本地新建⼀个hadoop⽬录,必须有 bin⽬录例如:D:\spark\hadoop-2.6.0\bin
然后将winutil等⽂件放在bin⽬录下
第三步:配置hadoop和spark的环境变量:
HADOOP_HOME 例如:D:\spark\hadoop-2.6.0
SPARK_HOMEmaven打包本地jar包
SPARK_CLASSPATH
path中加⼊spark和hadoop
⾄此,在cmd命令下输⼊spark-shell ⾄此windows下配置ok了
搭建⾃⼰的spark maven项⽬hello world程序
对于已经安装了eclipse环境的程序员来说,不⽤再单独安装saprk的开发环境,由于spark是基于scala语⾔的,所以如果要想看源代码,需要安装scala的eclipse插件
第⼀步:安装scala的eclipse插件
第⼀步:创建⾃⼰的spark maven项⽬
勾选create a simple project
第⼆步:选则maven⽣成的包,这⾥⼀定要选这jar,因为spark程序⼀般是打包为jar包的其他必填⾃⼰按需填
第三步:添加spark的jar包到刚才新建的maven项⽬中
到集安装的spark安装⽬录,在lib⽬录下会看到
将加到maven项⽬的build path下
第四步:pom中添加⾃⼰的spark,hadoop maven依赖
例如:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.5.2</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>1.5.2</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>1.2.0</version>
</dependency>
第五部:spark程序的⼊⼝是main函数,⾄此可以编写⾃⼰的hello world并让它跑起来和调试public class SparkMain implements Serializable {
public static void main(String[] args) throws Exception {
//编写⾃⼰的spark程序
System.out.println(“hello spark!”);
}
}
Now everything is ready for you to run your main Class. Enjoy!

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。