实验5MapReduce初级编程实践(1)——编程实现文件合并和去重操作

实验5MapReduce初级编程实践（1）——编程实现⽂件合并和去重操作⼀、实验⽬的

1. 通过实验掌握基本的MapReduce编程⽅法；

2. 掌握⽤MapReduce解决⼀些常见的数据处理问题，包括数据去重、数据排序和数据挖掘等。

⼆、实验平台

1. 操作系统：Linux（建议Ubuntu16.04或Ubuntu18.04）

2. Hadoop版本：

3.1.3

三、实验内容

编程实现⽂件合并和去重操作

对于两个输⼊⽂件，即⽂件A和⽂件B，请编写MapReduce程序，对两个⽂件进⾏合并，并剔除其中重复的内容，得到⼀个新的输出⽂件C。下⾯是输⼊⽂件和输出⽂件的⼀个样例供参考。

输⼊⽂件A的样例如下：

20150101 x

20150102 y

20150103 x

20150104 y

20150105 z

20150106 x

输⼊⽂件B的样例如下：

20150101 y

20150102 y

20150103 x

20150104 z

20150105 y

根据输⼊⽂件A和B合并得到的输出⽂件C的样例如下：

20150101 x

20150101 y

20150102 y

20150103 x

20150104 y

20150104 z

20150105 y

20150105 z

20150106 x

四、实验步骤

进⼊ Hadoop 安装⽬录，启动 hadoop：

cd /usr/local/hadoop

sbin/start-dfs.sh

新建⽂件夹，创建⽂件 A、B：

sudo mkdir MapReduce &&cd MapReduce

sudo vim A

sudo vim B

编写 Java ⽂件实现 MapReduce：

sudo vim Merge.java

实现的 Java 代码如下：

import IOException;

import Configuration;

import Path;

import IntWritable;

import Text;

import Job;

import Mapper;

import Reducer;

import FileInputFormat;

import FileOutputFormat;

import GenericOptionsParser;

public class Merge {

/**

* @param args

* 对A,B两个⽂件进⾏合并，并剔除其中重复的内容，得到⼀个新的输出⽂件C

//重载map函数，直接将输⼊中的value复制到输出数据的key上

public static class Map extends Mapper<Object, Text, Text, Text>{

private static Text text =new Text();

public void map(Object key, Text value, Context context)throws IOException,InterruptedException{

text = value;

context.write(text,new Text(""));

}

//重载reduce函数，直接将输⼊中的key复制到输出数据的key上

public static class Reduce extends Reducer<Text, Text, Text, Text>{

public void reduce(Text key, Iterable<Text> values, Context context )throws IOException,InterruptedException{ context.write(key,new Text(""));

}

public static void main(String[] args)throws Exception{

// TODO Auto-generated method stub

Configuration conf =new Configuration();

conf.set("fs.default.name","hdfs://localhost:9000");

String[] otherArgs =new String[]{"input","output"};/* 直接设置输⼊参数 */

if(otherArgs.length !=2){

}

Job job = Instance(conf,"Merge and duplicate removal");

job.setJarByClass(Merge.class);

job.setMapperClass(Map.class);

job.setCombinerClass(Reduce.class);

job.setReducerClass(Reduce.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(Text.class);

FileInputFormat.addInputPath(job,new Path(otherArgs[0]));

FileOutputFormat.setOutputPath(job,new Path(otherArgs[1]));

}

hadoop安装详细步骤linux

赋予⽤户相关权限：

sudo chown -R hadoop /usr/local/hadoop

添加编译所需要使⽤的 jar 包：

vim ~/.bashrc

添加下⾯⼀⾏到⽂件的最后：

export HADOOP_HOME=/usr/local/hadoop

export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH 使更改⽴即⽣效：

source ~/.bashrc

编译 Merge.java：

javac Merge.java

打包⽣成的 class ⽂件为 jar 包：

jar -cvf Merge.jar *.class

创建 Hadoop 主⽬录为 /user/hadoop 并创建 input ⽂件夹：

/usr/local/hadoop/bin/hdfs dfs -mkdir -p /user/hadoop

/usr/local/hadoop/bin/hdfs dfs -mkdir input

若 intput 已存在则删除原有⽂件：

usr/local/hadoop/bin/hdfs dfs -rm input/*

上传 A、B ⽂件到 input ⽂件夹中：

/usr/local/hadoop/bin/hdfs dfs -put ./A input

/usr/local/hadoop/bin/hdfs dfs -put ./B input

使⽤之前确保 output ⽂件夹不存在：

/usr/local/hadoop/bin/hdfs dfs -rm -r output

使⽤我们刚⽣成的 Merge.jar 包：

/usr/local/hadoop/bin/hadoop jar Merge.jar Merge

查看输出结果：

/usr/local/hadoop/bin/hdfs dfs -cat output/*

输出如下：

hadoop@fzqs-Laptop:/usr/local/hadoop$ hdfs dfs -cat output/*

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 x

hadoop@fzqs-Laptop:/usr/local/hadoop$

此外，有想⽤ Python 写的可以参考我这篇博客：

688IT编程网

实验5MapReduce初级编程实践(1)——编程实现文件合并和去重操作_百度文 ...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

实验5MapReduce初级编程实践(1)——编程实现文件合并和去重操作_百度文 ...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式