Spark中distinct、reduceByKey和groupByKey的区别与取舍--688IT编程网

Spark中distinct、reduceByKey和groupByKey的区别与取舍

1. 代码实例：

val rdd = sc.makeRDD(Seq("aa", "bb", "cc", "aa", "cc"), 1)

//对RDD中的元素进⾏去重操作

rdd.distinct(1).collect().foreach(println)

rs:

val rdd: RDD[(String, Int)] = sc.makeRDD(Seq(("aa", 1), ("bb", 1), ("cc", 1), ("aa", 1), ("cc", 1)), 1)

//pair RDD，即RDD的每⼀⾏是（key, value）,key相同进⾏聚合

rs:

(aa,2)

(bb,1)

(cc,2)

distinct和distinctiveval rdd: RDD[(String, Int)] = sc.makeRDD(Se q(("aa", 1), ("bb", 1), ("cc", 1), ("aa", 1), ("cc", 1)), 1)

//pair RDD，即RDD的每⼀⾏是（key, value）,key相同进⾏聚合

rs:

(aa,2)

(bb,1)

(cc,2)

2. groupByKey和reduceByKey的区别

reduceByKey对每个key对应的多个value进⾏merge操作，最重要的是它能够在本地进⾏merge操作，并且merge操作可以通过函数⾃定义。groupBykey也是对每个key进⾏操作，但是只⽣成⼀个sequence。因为groupByKey不能⾃定义函数，我们需要先⽤groupByKey⽣成RDD，然后才能对此RDD通过map进⾏⾃定义函数操作。当调⽤groupByKey时，所有的键值对（key-value pair）都会被移动。在⽹络上传输数据⾮常没必要，避免使⽤groupByKey。

区别： reduceByKey，在本机suffle后，再发送⼀个总map，发送到⼀个总机器上suffle汇总map，（汇总要压⼒⼩）

groupByKey，发送本机所有的map，在⼀个机器上suffle汇总map（汇总压⼒⼤）

因此，在对⼤数据进⾏复杂计算时，reduceByKey优于groupByKey。另外，如果仅仅是group处理，那么以下函数应该优先于 groupByKey ：　

1）、combineByKey 组合数据，但是组合之后的数据类型与输⼊时值的类型不⼀样。

2）、foldByKey合并每⼀个 key 的所有值，在级联函数和“零值”中使⽤。

3. distinct

先来看看源码：

/**

* Return a new RDD containing the distinct elements in this RDD.

def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {

map(x => (x, null)).reduceByKey((x, y) => x, numPartitions).map(_._1)

}

可见，distinct也是调⽤reduceByKey，不⽤groupByKey

4.看看groupByKey源码

/**

* Group the values for each key in the RDD into a single sequence. Allows controlling the

* partitioning of the resulting key-value pair RDD by passing a Partitioner.

* The ordering of elements within each group is not guaranteed, and may even differ

* each time the resulting RDD is evaluated.

* @note This operation may be very expensive. If you are grouping in order to perform an

* aggregation (such as a sum or average) over each key, using `PairRDDFunctions.aggregateByKey`

* or `duceByKey` will provide much better performance.

* @note As currently implemented, groupByKey must be able to hold all the key-value pairs for any

* key in memory. If a key has too many values, it can result in an [[OutOfMemoryError]].

def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])] = self.withScope {

// groupByKey shouldn't use map side combine because map side combine does not

// reduce the amount of data shuffled and requires all map side data be inserted

// into a hash table, leading to more objects in the old gen.

val createCombiner = (v: V) => CompactBuffer(v)

val mergeValue = (buf: CompactBuffer[V], v: V) => buf += v

val mergeCombiners = (c1: CompactBuffer[V], c2: CompactBuffer[V]) => c1 ++= c2

val bufs = combineByKeyWithClassTag[CompactBuffer[V]](

createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine = false)

bufs.asInstanceOf[RDD[(K, Iterable[V])]]

}

内部调⽤了 combineByKeyWithClassTag，⽽且连源码都说了：This operation may be very expensive

688IT编程网

Spark中distinct、reduceByKey和groupByKey的区别与取舍

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Spark中distinct、reduceByKey和groupByKey的区别与取舍

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式