Spark官方文档-SparkCore--688IT编程网

Spark官⽅⽂档-SparkCore

快速开始

RDD

1.Spark 的主要抽象是⼀个分布式弹性数据集（RDD），可以从 Hadoop InputFormats（例如 HDFS ⽂件）或通过转换其他RDD来创建RDD。

val textFile = File("README.md")

2.可以通过调⽤某些操作直接从 RDD中获取值，或者转换RDD以获得新的值

textFile.first() // First item in this Dataset

3.将此数据集转换为新的数据集。我们调⽤filter返回⼀个包含⽂件中RDD⼦集的新数据集。

val linesWithSpark = textFile.filter(line => ains("Spark"))

更多关于数据集操作

1.到单词最多的那⼀⾏：

先计算每⾏单词数；reduce在该数据集上调⽤以查最⼤字数；

textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)

textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))

RDD

初始化 Spark

Spark 程序必须做的第⼀件事是创建⼀个对象，它告诉 Spark 如何访问集。要创建⼀个，SparkContext您⾸先需要构建⼀个对象，该对象包含有关您的应⽤程序的信息。每个 JVM 应该只有⼀个 SparkContext 处于活动状态。stop()在创建新的之前，您必须激活SparkContext。

val conf = new SparkConf().setAppName(appName).setMaster(master)

new SparkContext(conf)

该appName参数是您的应⽤程序在集 UI 上显⽰的名称。 master是⼀个，或者⼀个特殊的“本地”字

符串以在本地模式下运⾏。 Using the Shell

$ ./bin/spark-shell --master local[4] --jars code.jar

弹性分布式数据集 (RDD)

Spark 围绕弹性分布式数据集(RDD)的概念展开，RDD 是可以并⾏操作的元素的容错集合。

有两种⽅法可以创建 RDD：在驱动程序中并⾏化现有集合，或引⽤外部存储系统中的数据集，例如共享⽂件系统、HDFS、HBase 或任何提供 Hadoop InputFormat 的数据源。

并⾏集合

并⾏化集合是通过在驱动程序（Scala ）中的现有集合上调⽤SparkContext的parallelize⽅法来创建的Seq。集合的元素被复制以形成可以并⾏操作的分布式数据集。例如，这⾥是如何创建⼀个包含数字 1 到 5 的并⾏化集合：

val data = Array(1, 2, 3, 4, 5)

val distData = sc.parallelize(data)

创建后，distData可以并⾏操作分布式数据集 ( )。例如，我们可能会调⽤duce((a, b) => a + b)将数组的元素相加。稍后我们将描述分布式数据集上的操作。

并⾏集合的⼀个重要参数是将数据集切割成的分区数。Spark 将为集的每个分区运⾏⼀个任务。通常，集中的每个 CPU 需要 2-4 个分区。通常，Spark 会尝试根据您的集⾃动设置分区数。但是，您也可以通过将其作为第⼆个参数传递给parallelize（例

如sc.parallelize(data, 10)）来⼿动设置它。注意：代码中的某些地⽅使⽤术语切⽚（分区的同义词）来保持向后兼容性。

外部数据集

Spark 可以从 Hadoop ⽀持的任何存储源创建分布式数据集，包括本地⽂件系统、HDFS、Cassandra、HBase、等。Spark ⽀持⽂本⽂件、和任何其他 Hadoop 。

可以使⽤SparkContext的textFile⽅法创建⽂本⽂件 RDD 。此⽅法需要⼀个URI的⽂件（本地路径的机器上，或⼀个hdfs://，s3a://等URI），并读取其作为⾏的集合。这是⼀个⽰例调⽤：

val distFile = sc.textFile("")

使⽤ Spark 读取⽂件的⼀些注意事项：

如果使⽤本地⽂件系统上的路径，则该⽂件也必须可以在所有⼯作节点上的相同路径上访问。要么将⽂件复制到所有⼯作节点，要么使⽤⽹络安装的共享⽂件系统。

Spark 的所有基于⽂件的输⼊⽅法，包括textFile，都⽀持在⽬录、压缩⽂件和通配符上运⾏。例如，你可以使

⽤textFile("/my/directory")，textFile("/my/directory/*.txt")和textFile("/my/directory/*.gz")。当读取多个⽂件时，分区的顺序取决于⽂件从⽂件系统返回的顺序。例如，它可能会也可能不会遵循⽂件的字典顺序（按路径）。在分区内，元素根据它们在底层⽂件中的顺序进⾏排序。

该textFile⽅法还采⽤可选的第⼆个参数来控制⽂件的分区数。默认情况下，Spark 为⽂件的每个块创建⼀个分区（在 HDFS 中默认块为 128MB），但您也可以通过传递更⼤的值来请求更多的分区。请注意，分区数不能少于块数。

除了⽂本⽂件，Spark 的 Scala API 还⽀持其他⼏种数据格式：

SparkContext.wholeTextFiles允许您读取包含多个⼩⽂本⽂件的⽬录，并将每个⽂件作为（⽂件名、内容）的⼆元组对返回。

与textFile对⽐，后者将在每个⽂件中的每⾏的⼀条记录返回。分区由数据本地性决定，在某些情况下，

这可能导致分区太少（本地数据较少）。对于这些情况，wholeTextFiles提供可选的第⼆个参数来控制最⼩分区数。

对于（K，V存储格式的⽂件），使⽤ SparkContext 的sequenceFile[K, V]⽅法，其中K和V是⽂件中键和值的类型。这些应该是Hadoop 的接⼝的⼦类，如和。此外，Spark 允许您为⼀些常见的 Writable 指定基础类型；例如，sequenceFile[Int, String]会⾃动读取 IntWritables 和 Texts。

对于其他 Hadoop InputFormats，您可以使⽤该SparkContext.hadoopRDD⽅法，该⽅法采⽤任意JobConf输⼊格式类、键类和值类。以与使⽤输⼊源的 Hadoop 作业相同的⽅式设置这些。您还可以使⽤wAPIHadoopRDD基

于“新”MapReduce API ( org.apache.hadoop.mapreduce) 的InputFormats 。

RDD.saveAsObjectFile和SparkContext.objectFile⽀持，⽤序列化的 Java 对象，这种简单格式来组成RDD，并⽤来保存RDD。虽然这不如 Avro 之类的专⽤格式有效，但它提供了⼀种保存任何 RDD 的简单⽅法。

RDD 操作

RDD ⽀持两种类型的操作：

transforms（转换）它从现有的数据集创建⼀个新的数据集，

actions（⾏动），它在对数据集运⾏计算后返回⼀个值给Driver程序。例如，map是⼀个转换，它通过⼀个函数传递每个数据集元素并返回⼀个表⽰结果的新RDD。另⼀⽅⾯，reduce是使⽤某个函数聚合RDD的所有元素并将最终结果返回给Driver程序的操作（也可以⽤⼀个并⾏reduceByKey返回分布式数据集）。

Spark 中的所有转换都是惰性的，因为它们不会⽴即计算结果。相反，他们只记住应⽤于某些基本数据集（例如⽂件）的转换。仅当操作需要将结果返回到Driver程序时才计算转换（即执⾏action算⼦时）。这种设计使 Spark 能够更⾼效地运⾏。例如，我们可以意识到通过创建的数据集map将在 a 中使⽤，reduce并且仅将的结果返回reduce给驱动程序，⽽不是更⼤的映射数据集。

默认情况下，每次在其上运⾏操作时，每个转换后的 RDD 可能会重新计算。但是，你也可以持久化RDD；使⽤内存中

的RDD persist（或cache）⽅法，在这种情况下，Spark将保存RDD在周围的集上，⽅便你下⼀次查询使⽤它。还⽀持在磁盘上持久化RDD，或跨多个节点复制。

将函数传递给 Spark

Spark 的 API 严重依赖于Driver程序中传递的函数来在集上运⾏。有两种推荐的⽅法可以做到这⼀点：

，可⽤于短代码。

全局单例对象中的静态⽅法。例如，您可以定义object MyFunctions然后传递MyFunctions.func1，如下所⽰：

object MyFunctions {

def func1(s: String): String = { ... }

}

myRdd.map(MyFunctions.func1)

请注意，虽然也可以在类实例中传递对⽅法的引⽤（与单例对象相反），但这需要将包含该类的对象与⽅法⼀起发送。例如，考虑：

class MyClass {

scala不是内部或外部命令

def func1(s: String): String = { ... }

def doStuff(rdd: RDD[String]): RDD[String] = { rdd.map(func1) }

}

在这⾥，若我们创建⼀个新MyClass实例并调⽤doStuff它，map那⾥的内部引⽤了该实例的 func1⽅法，因此需要将整个对象发送到集。它类似于写成 MyClass rdd.map(x => this.func1(x))

以类似的⽅式，访问外部对象的字段将引⽤整个对象：

class MyClass {

val field = "Hello"

def doStuff(rdd: RDD[String]): RDD[String] = { rdd.map(x => field + x) }

}

相当于写成 rdd.map(x => this.field + x)，它引⽤了所有的this. 为了避免这个问题，最简单的⽅法是复制field到⼀个局部变量中，⽽不是从外部访问它：

def doStuff(rdd: RDD[String]): RDD[String] = {

val field_ = this.field

rdd.map(x => field_ + x)

}

了解闭包

Spark 的难点之⼀是在跨集执⾏代码时了解变量和⽅法的范围和⽣命周期。修改其范围之外的变量的 RDD 操作可能是⼀个常见的混淆源。在下⾯的⽰例中，我们将查看foreach()⽤于递增计数器的代码，但其他操作也会出现类似问题。

例⼦

考虑下⾯的朴素 RDD 元素 sum，根据执⾏是否在同⼀ JVM 中发⽣，其⾏为可能会有所不同。⼀个常见的例⼦是在local模式 ( --master = local[n])下运⾏ Spark与将 Spark 应⽤程序部署到集时（例如，通过 spark-submit 到 YARN）：

var counter = 0

var rdd = sc.parallelize(data)

// Wrong: Don't do this!!

rdd.foreach(x => counter += x)

println("Counter value: " + counter)

本地与集模式

为了执⾏作业，Spark 将 RDD 操作的处理分解为task任务，每个任务由⼀个执⾏器执⾏。在执⾏之前，Spark 计算任务的闭包。闭包

是那些必须对执⾏器可见的变量和⽅法，以便在 RDD 上执⾏其计算（在本例中foreach()）。这个闭包被序列化并发送给每个executor。

发送到每个executor的闭包中的变量为现在变量的副本，因此，当在函数中引⽤计数器时foreach，它不再是driver节点上的计数器。driver节点的内存中仍然有⼀个计数器，但这对executor不再可见！executor只能看到序列化闭包的副本。因此，counter的最终值仍然为零，因为counter上的所有操作都引⽤了序列化闭包中的值。

为了解决这些问题：Spark引⼊了累加器；

RDD 的打印元素

⼀个常见的习惯⽤法是使⽤rdd.foreach(println)或打印出 RDD 的元素rdd.map(println)。在⼀台机器上，这将⽣成预期的输出并打印所有RDD 的元素。但是，在cluster模式下，stdout执⾏程序调⽤的输出现在写⼊executor端的stdout程序，⽽不是driver上的输出，因

此stdout不会在driver端显⽰这些！要在Driver端打印所有元素（包括Executor端），可以使⽤的collect()⽅法，⾸先把RDD拉取到Driver 节点：llect().foreach(println)。但是，这可能会导致Driver内存不⾜，因为collect()将整个 RDD 提取到⼀台机器上；如果您只需要打印 RDD 的⼏个元素，更安全的⽅法是使⽤take(): rdd.take(100).foreach(println)。

使⽤键值对

虽然⼤多数 Spark 操作适⽤于包含任何类型对象的 RDD，但⼀些特殊操作仅适⽤于键值对的 RDD。最常见的是分布式“shuffle”操作，例如通过键对元素进⾏分组(grouping)或聚合(aggregating )。

在 Scala 中，这些操作在包含对象（语⾔中的内置元组，通过简单地编写创建(a, b)）的上⾃动可⽤的。键值对操作在类中可⽤，它⾃动包装元组的 RDD。

例如，以下代码使⽤reduceByKey对键值对的操作来计算⽂件中每⾏⽂本出现的次数：

val lines = sc.textFile("")

val pairs = lines.map(s => (s, 1))

val counts = duceByKey((a, b) => a + b)

例如counts.sortByKey()，我们还可以使⽤来按字母顺序对这些对进⾏排序，最后 llect()将它们作为对象数组带回driver端。

注意：在键值对操作中使⽤⾃定义对象作为key时，必须确保⾃定义equals()⽅法附带匹配hashCode()⽅法。

Transformations转换操作

Transformation Meaning

map(func)Return a new distributed dataset formed by passing each element of the source through a function func.返回新的RDD，将fun函数都作⽤到原的RDD每个元素上

filter(func)Return a new dataset formed by selecting those elements of the source on which func returns true.

返回新的RDD，将fun函数作⽤到原RDD的每个元素上，其fun返回是true

flatMap(func)Similar to map, but each input item can be mapped to 0 or more output items (so func should return a Seq rather than a single item).类似map，但是把RDD中的⼀个或多个元素，拍平输出成⼀个集合中

mapPartitions(func)Similar to map, but runs separately on each partition (block) of the RDD, so func must be of type Iterator<T> => Iterator<U> when running on an RDD of type T.

类似于map操作，但作⽤在每个分区上；在T类型的RDD上运⾏，func必须是 Iterator<T> => Iterator<U> 类型。

mapPartitionsWithIndex(func)Similar to mapPartitions, but also provides func with an integer value representing the index of the partition, so func must be of type (Int, Iterator<T>) => Iterator<U> when running on an RDD of type T.

与mapPartition类似，但增加了⼀个索引，在 T 类型的 RDD 上运⾏

时，func必须是 (Int, Iterator<T>) => Iterator<U> 类型。

sample(withReplacement, fraction, seed)Sample a fraction fraction of the data, with or without replacement, using a given random number generator seed.

union(otherDataset)Return a new dataset that contains the union of the elements in the source dataset and the argument.

返回⼀个新数据集，其中包含两个数据集的并集。

intersection(otherDataset)Return a new RDD that contains the intersection of elements in the source dataset and the argument.

返回⼀个新数据集，其中包含两个数据集的交集。

distinct([numPartitions]))Return a new dataset that contains the distinct elements of the source dataset.

单类型RDD操作，返回⼀个新的RDD包含两个数据集的差集

688IT编程网

Spark官方文档-SparkCore

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Spark官方文档-SparkCore

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式