使⽤java开发spark实战
⼀:环境搭建 安装jdk 和maven。
1. 安装jdk并配置环境变量
系统变量→新建 JAVA_HOME 变量。
变量值填写jdk的安装⽬录(本⼈是 E:\Java\jdk1.7.0)
系统变量→寻 Path 变量→编辑
在变量值最后输⼊ %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;(注意原来Path的变量值末尾有没有;号,如果没有,先输⼊;号再输⼊上⾯的代码)
系统变量→新建 CLASSPATH 变量值填写 .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar(注意最前⾯有⼀点)
2. Maven的安装和配置
解压apache-maven-3.1.1-bin.zip,并把解压后的⽂件夹下的apache-maven-3.1.1⽂件夹移动到D:\Java
下,如果没有Java这个⽂件夹的话,请⾃⾏创建
新建系统变量 MAVEN_HOME 变量值:D:\Java\apache-maven-3.1.1。编辑系统变量 Path 添加变量值: ;%MAVEN_HOME%\bin。
在mave 的⽬录中修改l,在localRepository属性后添加<localRepository>D:/repository</localRepository> 修改maven下载jar 的位置。
3. eclipse 中java 和maven 的配置
点击 window ->java ->Installed JREs ->add ->standard vm ,点击next ,然后选择jdk 的安装路径点击finish即可。
点击window ->Maven ->Installations ->add 在弹出页⾯选择mave 的安装路径,然后点击finish。然后在列表中选择我们⾃⼰刚添加的那个maven信息。
然后点击window ->Maven ->User Setings 在 右侧的User Settings 点击browse 现在maven conf⽬录下的l .(主要是修改maven下载依赖包存放的位置)
⼆:创建maven项⽬
1. 创建maven项⽬
点击file ->new ->others ->maven project 点击next,选择maven-archetype-quickstart ,点击next,group id
为 com.dt.spark,artifact id 为 sparkApps,然后点击finish。
2. 修改jdk 和pom⽂件
创建maven项⽬后,默认的jdk 是1.5要改成我们前⾯安装好的jdk1.8 。在项⽬上右击 build path ->configure build path 。在弹出页
⾯点击Libraries,选中jre system library 。点击 edit,在弹出框选择 workspace default jre ,然后点击finish。 然后在点击ok。将pom⽂件修改为如下内容,然后等待eclipse 下载好maven依赖的jar包,并编译⼯程。编译好⼯程后有个错误提⽰,在此错误列上,右击选择 quick fix ,在弹出页⾯点击finish即可。
<project xmlns="/POM/4.0.0" xmlns:xsi="/2001/XMLSchema-instance"
<modelVersion>4.0.0</modelVersion>
<groupId>com.dt.spark</groupId>
<artifactId>SparkApps</artifactId>
<version>0.0.1-SNAPSHOT</version>
<packaging>jar</packaging>
<name>SparkApps</name>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> </properties>
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-hive_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-graphx_2.10</artifactId>
<version>1.6.0</version>
</dependency>
</dependencies>
<build>
<sourceDirectory>src/main/java</sourceDirectory>
<testSourceDirectory>src/main/test</testSourceDirectory>
<plugins>
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs>
<archive>
<manifest>
<maniClass></maniClass>
</manifest>
</archive>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
<plugin>
<groupId&jo</groupId>
<artifactId>exec-maven-plugin</artifactId>
<version>1.3.1</version>
<executions>
<execution>
<goals>
python转java代码<goal>exec</goal>
</goals>
</execution>
</executions>
<configuration>
<executable>java</executable>
<includeProjectDependencies>false</includeProjectDependencies> <classpathScope>compile</classpathScope>
<mainClass>com.dt.spark.SparkApps.WordCount</mainClass>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>1.6</source>
<target>1.6</target>
</configuration>
</plugin>
</plugins>
</build>
</project>
3. 创建 包路径以及java代码
在包路径 com.dt.spark.SparkApps 上 右击 new ->package 在弹出页⾯name中填写com.dt.s,点击finish的。
在包路径下com.dt.s上 右击 new ->class ,在弹出窗⼝中name 中填写 WordCount ,点击finish。然后在WordCount 中编写如下代码。
package com.dt.s;
import java.util.Arrays;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Function;
import scala.Tuple2;
/**
* 使⽤java的⽅式开发进⾏本地测试spark的wordcount 程序
* @author DT⼤数据梦⼯⼚
*
*/
public class WordCount {
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论