spark与mapreduce的区别--688IT编程网

spark与mapreduce的区别

spark是通过借鉴Hadoop mapreduce发展⽽来，继承了其分布式并⾏计算的优点，并改进了mapreduce明显的缺陷，具体表现在以下⼏⽅⾯：

1.spark把中间计算结果存放在内存中，减少迭代过程中的数据落地，能够实现数据⾼效共享，迭代运算效率

⾼。mapreduce中的计算中间结果是保存在磁盘上的，这样必然影响整体运⾏速度。

2.spark容错性⾼。spark⽀持DAG图的分布式并⾏计算（简单介绍以下spark DAG：即有向⽆环图，描述了任务间的先后依赖关系，spark中rdd经过若⼲次transform操作，由于transform操作是lazy的，因此，当rdd进⾏action操作时，rdd间的转换关系也会被提交上去，得到rdd内部的依赖关系，进⽽根据依赖，划分出不同的stage。），它引进rdd弹性分布式数据集的概念，它是分布在⼀组节点中的只读对象集合，如果数据集⼀部分数据丢失，则可以根据⾎统来对它们进⾏重建；另外在RDD计算时可以通过checkpoint来实现容

错，checkpoint有两种⽅式，即checkpiont data 和logging the updates。

3.spark更加通⽤。hadoop只提供了map和reduce两种操作，spark提供的操作类型有很多，⼤致分为转

hadoop与spark的区别与联系换和⾏动操作两⼤类。转换操作包括：map,filter,flatmap,sample,groupbykey,reducebykey,union,join,cogroup,mapvalues,sort,partitionby等多种操作，⾏动操作包括：collect,reduce,lookup和save等操作

这⾥要注意：spark 操作实际分为四类：

a.创建操作：⽤于创建RDD。RDD创建只有两种⽅法，⼀种是读取外部⽂件和内存集合，另⼀种是通过transform转换操作⽣成。

b.转换操作：将RDD通过⼀定的操作转换成新的RDD。RDD的转换操作是惰性操作，它只是定义了⼀个新的RDD，并没有⽴即执⾏。

c.控制操作：进⾏RDD持久化，科技将RDD按不同的存储策略保存在磁盘或内存中，⽐如cache接⼝默认将RDD缓存在内存中。

d.⾏动操作：能够触发spark运⾏的操作，举个栗⼦，对RDD进⾏COLLECT就是⾏动操作。spark中的⾏动操作分为两类，⼀类的操作结果是变成scala集合或变量，另⼀类是将RDD保存到外部⽂件系统或数据库中。

688IT编程网

spark与mapreduce的区别

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

spark与mapreduce的区别

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式