如何使用IDEA工具开发一个WordCount单词计数程序?--688IT编程网

Spark作业与MapReduce作业同样可以先在本地发测试，本地执行模式与集提交模式，代码的功能相同，因此本书多数采用本地发模式。讲解使用IDEA工具发WordCount单词计数程序的相关步骤。

1.创建Maven，新建资源文件夹

创建一个Maven工程，名为“spark_chapter02”。创建好后，在main和test目录下分别创建一个名称为scala的文件夹，创建好的目录结构如图1所示。

　图1Spark_chapter02目录结构

在图1中，选中main目录下的scala文件夹，单击右键选择【MarkDirectoryas】→【SourcesRoot】，将文件夹标记为资源文件夹类型;同样的，选中test目录下的scala文件夹，单击右键选择【MarkDirectoryas】→【TestSourcesRoot】将文件夹标记为测试资源文件夹类型。其中，资源文件夹中存放源码文件，测试文件夹中存放发中测试的源码文件。

2.Spark相关依赖、打包件

Maven一个管理工具，虽然们刚才创建好了，但却不能识别Spark类，因此，们需要将Spark相关的依赖到Maven中。打l文件，在该文件中的依赖如下所示：

<scala.version>2.11.8</scala.version>

<hadoop.version>2.7.4</hadoop.version>

<spark.version>2.3.2</spark.version>

</properties>

<groupId>org.scala-lang</groupId>

<artifactId>scala-library</artifactId>

<version>${scala.version}</version>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.11</artifactId>

<version>${spark.version}</version>

</dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

<version>${hadoop.version}</version>

</dependency>

</dependencies>

在上述配置参数片段中，标签用来设置所需依赖的版本号，其中在标签中了Scala、Hadoop和Spark相关的依赖，设置完毕后，相关Jar文件会被自动加载到中。

3.编写代码，查看结果

在main目录下的scala文件夹中，创建WordCount.scala文件用于词频统计，代码如文件1所示。

文件1WordCount.scala

importorg.RDD

importorg.apache.spark.{SparkConf,SparkContext}

//编写单词计数

objectWordCount{

defmain(args:Array[String]):Unit={

//1.创建SparkConf对象,设置appName和Master

valsparkconf=new

SparkConf().setAppName("WordCount").setMaster("local[2]")

//2.创建SparkContext对象，它所有任务计算的源头，

//它会创建DAGScheduler和TaskScheduler

valsparkContext=newSparkContext(sparkconf)

//3.读取数据文件,RDD可以简单的理解为一个集合

//集合中存放的元素String类型

valdata:RDD[String]=

File("D:\\word\\")

//4.切分每一行，获取所有的单词

valwords:RDD[String]=data.flatMap(_.split(""))

//5.每个单词记为1，转换为（单词，1）

valwordAndOne:RDD[(String,Int)]=words.map(x=>(x,1))

//6.相同单词汇总，前一个下划线表示累加数据，后一个下划线表示新数据

valresult:RDD[(String,Int)]=duceByKey(_+_)

//7.收集打印结果数据

valfinalResult:Array[(String,Int)]=llect()

Buffer)

//8.关闭sparkContext对象

idea开发安卓app教程

sparkContext.stop()

}

上述代码中，第7-11行代码创建SparkContext对象并通过SparkConf对象设置配置参数，其中Master为本地模式，即可以在本地直接运行;第14-24行代码中，读取数据文件，将获得的数据按照空格切分，将每个单词记作(单词，1)，之后若出现相同的单词就将次数累加，最终打印数据结果;第26行代码表示关闭SparkContext对象资源。执行代码成功后，在控制台可以查看输出结果，如图2所示。

图2IDEA发WordCount

从图2可以看出，文本中的单词已经成功统计了出现的次数。

688IT编程网

如何使用IDEA工具开发一个WordCount单词计数程序?

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

如何使用IDEA工具开发一个WordCount单词计数程序?

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式