Hadoop Map/Reduce教程[一]
编辑| 删除| 权限设置| 更多▼
更多▲
∙设置置顶
∙推荐日志
∙转为私密日志
开心延年发表于2009年11月02日00:15 阅读(10) 评论(1) 分类:搜索与存储权限: 公开
今天浏览了下hadoop的 map/reduce文档,初步感觉这东西太牛逼了,听我在这里给你吹吹。
你可以这样理解,假设你有很多台烂机器(假设1000台)
1.利用hadoop他会帮你组装成一台超级计算机(集),你的这台计算机是超多核的(很多个CPU),一个超级大的硬盘,而且容错和写入速度都很快。
2.如果你的计算任务可以拆分,那么通过map/Reduce,他可以统一指挥你的那一帮烂机器,让一堆机器帮你一起干活(并行计算),谁干什么,负责什么,他来管理,通常处理个几T的数据,只要你有机器那就小CASE。
3.hadoop要分析的数据通常都是巨大的(T级),网络I/O开销不可忽视,但分析程序通常不会很大,所以他传递的是计算方法(程序),而不是数据文件,所以每次计算在物理上都是在相近的节点上进行(同一台机器或同局域网),大大降低的IO消耗,而且计算程序如果要经常使用的话也是可以做缓存的。
4.hadoop是一个分布式的文件系统,他就像一个管家,管理你数据的存放,在物理上较远的地方会分别存放(这样一是不同的地方读取数据都很快,也起到了异地容灾的作用),他会动态管理和调动你的数据节点,高强的容错处理,最大程度的降低数据丢失的风险。
比较著名的应用:nutch搜索引擎的蜘蛛抓取程序,数据的存储以及pageRank(网页重要程序)计算。QQ空间的日志分析处理(PV,UV)
咋样,给他吹的够牛了吧。下面是别人翻译的官方文档,经常做日志分析处理的
同学可以研究下。
目的
hadoop分布式集搭建这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。先决条件
请先确认Hadoop被正确安装、配置和正常运行中。更多信息见:
∙Hadoop快速入门对初次使用者。
∙Hadoop集搭建对大规模分布式集。
概述
Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集上,并以一种可靠容错的方式并行处理上T级别的数据集。
一个Map/Reduce 作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。通常,Map/Reduce框架和分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集的网络带宽被非常高效地利用。
Map/Reduce框架由一个单独的master JobTracker 和每个集节点一个slave TaskTracker共同组成。master负责调度构成一个作业的所有任务,这些任务分布在不同的slave上,master监控它们的执行,重新执行已经失败的任务。而slave仅负责执行由master指派的任务。
应用程序至少应该指明输入/输出的位置(路径),并通过实现合适的接口或抽象类提供map和reduce函数。再加上其他作业的参数,就构成了作业配置(job configuration)。然后,Hadoop的job client提交作业(jar包/可执行程序等)和配置信息给JobTracker,后者负责分发这些软件和配置信息给slave、调度任务并监控它们的执行,同时提供状态和诊断信息给job-client。
虽然Hadoop框架是用Java TM实现的,但Map/Reduce应用程序则不一定要用 Java 来写。
∙Hadoop Streaming是一种运行作业的实用工具,它允许用户创建和运行任何可执行
程序(例如:Shell工具)来做为mapper和reducer。
Hadoop Pipes是一个与SWIG兼容的C++ API (没有基于JNI TM技术),它也可用于实现Map/Reduce应用程序。
输入与输出
Map/Reduce框架运转在<key, value> 键值对上,也就是说,框架把作业的输入看为是一组<key, value> 键值对,同样也产出一组 <key, value> 键值对做为作业的输出,这两组键值对的类型可能不同。
框架需要对key和value的类(classes)进行序列化操作,因此,这些类需要实现Writable接口。另外,为了方便框架执行排序操作,key类必须实现WritableComparable接口。
一个Map/Reduce 作业的输入和输出类型如下所示:
(input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3> (output)
例子:WordCount v1.0
在深入细节之前,让我们先看一个Map/Reduce的应用示例,以便对它们的工作方式有一个初步的认识。
WordCount是一个简单的应用,它可以计算出指定数据集中每一个单词出现的次数。
这个应用适用于单机模式,伪分布式模式或完全分布式模式三种Hadoop
安装方式。
源代码
WordCount.java
1.;
2.
3.import java.io.IOException;
4.import java.util.*;
5.
6.import org.apache.hadoop.fs.Path;
7.import org.f.*;
8.import org.apache.hadoop.io.*;
9.import org.apache.hadoop.mapred.*;
10.import org.apache.hadoop.util.*;
11.
12.public class WordCount {
13.
14.
public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
15.private final static IntWritable one = new IntWritable(1);
16.private Text word = new Text();
17.
18.
public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
19.String line = String();
20.StringTokenizer tokenizer = new StringTokenizer(line);
21.while (tokenizer.hasMoreTokens()) {
22.word.Token());
llect(word, one);
24.}
25.}
26.}
27.
28.
public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {
29.
public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
30.int sum = 0;
31.while (values.hasNext()) {
32.sum += ().get();
33.}
llect(key, new IntWritable(sum));
35.}
36.}
37.
38.public static void main(String[] args) throws Exception {
39.JobConf conf = new JobConf(WordCount.class);
41.
44.
48.
51.
52.FileInputFormat.setInputPaths(conf, new Path(args[0]));
53.FileOutputFormat.setOutputPath(conf, new Path(args[1]));
54.
55.JobClient.runJob(conf);
57.}
58.}
59.
用法
假设环境变量HADOOP_HOME对应安装时的根目录,HADOOP_VERSION对应Hadoop 的当前安装版本,编译WordCount.java来创建jar包,可如下操作:
$ mkdir wordcount_classes
$ javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论