简述mapreduce计算过程
mapreduce是一种用来实现高度可扩展的分布式计算框架。mapreduce的计算过程大致可以分为map阶段和reduce阶段,下面分别介绍这两个阶段的计算过程。
map阶段:
1、用户提交一个由map处理程序和reduce处理程序组成的程序,它们针对特定的查询目标;
2、mapreduce框架将用户提交的代码发送给集中的各个节点,每个节点上的代码都是完全一样的;
3、集中的节点上分别启动map任务,map任务会把数据划分为若干个小块,然后把每个小块的数据都传递给map任务;
4、map任务根据用户提供的数据处理程序,对每个块的数据进行处理,形成一个中间结果;
5、map处理结果在每个节点之间进行汇总,形成map输出结果;
reduce阶段:
1、接着上面的map处理结果,用户提交的reduce处理程序会把多个节点上的map任务的结果进行合并;
mapreduce是什么意思 2、reduce任务会根据用户提交的reduce程序,对合并后的map任务处理结果进行处理,形成最终的输出结果;
3、最终的输出结果会被存储到指定的目标;
4、输出结果的格式也由用户指定。
通过map和reduce这两个阶段,可以实现复杂的分布式计算任务,从而实现数据的计算、分类和汇总,从而提高计算能力。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论