hadoop--MapReduce_WordCount词频统计案例--688IT编程网

hadoop--MapReduce_WordCount词频统计案例⽬录

WordCount案例

需求

: 统计⼀堆⽂件中单词出现的个数。

1.输⼊数据

hello hello

hi hi

haha

map

reduce

2.期望输出数据

hello 2

hi 2

haha 1

map 1

reduce 1

需求分析：按照MapReduce编程规范，分别编写Mapper、Reducer、Driver。

3.Mapper

1). 将MapTask传给我们的⽂本内容转换成String：

hello hello

2). 根据空格将这⼀⾏切分成单词：

hello

3). 将单词输出为<；单词，1>

hello, 1

4.Reducer

1). 汇总各个key的个数

hello, 1

2). 输出该key的总次数

hello, 2

5.Driver

1). 获取配置信息，获取job对象实例；

2). 制定本程序的jar包所在的本地路径；

3). 关联Mapper/Reducer业务类；

4). 指定Mapper输出数据的KV类型；

5). 指定最终输出的数据的KV类型；

6). 指定job的输⼊原始⽂件所在⽬录；

7). 指定job的输出结果所在⽬录；

8).提交作业。

环境准备

1.创建maven⼯程，MapReduceDemo；

2.在l⽂件中添加如下依赖：

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

</dependency>

<groupId>junit</groupId>

<artifactId>junit</artifactId>

</dependency>

</dependency>

</dependencies>

3.在项⽬的src/main/resources⽬录下，新建⼀个⽂件，命名为“log4j.properties“，在⽂件中填⼊：

log4j.appender.stdout=ConsoleAppender

log4j.appender.stdout.layout=PatternLayout

ConversionPattern=%d %p [%c]-%m%n

log4j.appender.logfile=FileAppender

File=target/spring.log

log4j.appender.logfile.layout=PatternLayout

ConversionPattern=%d %p [%c]-%m%n

4.创建包名：com.xiaobai.mapreduce.wordcount；

分别编写Mapper、Reducer、Driver类。

本地测试

源码Driver部分：

//6.设置输⼊路径和输出路径

FileInputFormat.setInputPaths(job,new Path("/Users/jane/Desktop/test/"));

FileOutputFormat.setOutputPath(job,new Path("/Users/jane/Desktop/hadoop/output"));

在“/Users/jane/Desktop/test/”⽬录下新建⼀份l，内容如下：

输出结果：

提交到集测试

集测试

1.⽤maven打jar包，在l⽂件中添加如下依赖：

<build>

<artifactId>maven-compiler-plugin</artifactId>

</configuration>

</plugin>

<artifactId>maven-assembly-plugin</artifactId>

<descriptorRef>jar-with-dependencies</descriptorRef>

</descriptorRefs>

</configuration>

<id>make-assembly</id>

<phase>package</phase>

<goals>

<goal>single</goal>

</goals>

</execution>

</executions>

</plugin>

</plugins>

</build>

2.打包maven jar包。

(ps.我太难了，这张图是拼接的，截了好⼏次图，⼀直缺东缺西的，不太完美 = = )

3.使⽤命令启动集：

maven打包本地jar包[xiaobai@hadoop102 ~]$ myhadoop.sh start

4.使⽤命令查看进程，确保集已经正常启动：

[xiaobai@hadoop102 ~]$ jpsall

5.将jar包复制⼀份到桌⾯并命名为wc.jar，上传打包好的jar包到/opt/module/hadoop3.2.2：

688IT编程网

hadoop--MapReduce_WordCount词频统计案例

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

hadoop--MapReduce_WordCount词频统计案例

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则