easyexcel导出百万级数据_百万级数据批量读写入MySQL--688IT编程网

easyexcel导出百万级数据_百万级数据批量读写⼊MySQL Spark SQL读取MySQL的⽅式

Spark SQL还包括⼀个可以使⽤JDBC从其他数据库读取数据的数据源。与使⽤JdbcRDD相⽐，应优先使⽤此功能。这是因为结果作为DataFrame返回，它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使⽤Java或Python，因为它不需要⽤户提供ClassTag。

可以使⽤Data Sources API将远程数据库中的表加载为DataFrame或Spark SQL临时视图。⽤户可以在数据源选项中指定JDBC连接属性。user和password通常作为⽤于登录数据源的连接属性。除连接属性外，Spark还⽀持以下不区分⼤⼩写的选项：

属性名称解释

url要连接的JDBC URL

dbtable读取或写⼊的JDBC表

query指定查询语句

driver⽤于连接到该URL的JDBC驱动类名

partitionColumn,

lowerBound,

upperBound

如果指定了这些选项，则必须全部指定。另外， numPartitions必须指定

numPartitions 表读写中可⽤于并⾏处理的最⼤分区数。这也确定了并发JDBC连接的最⼤数量。如果要写⼊的分区数超过此限制，我们可以通过coalesce(numPartitions)在写⼊之前进⾏调⽤将其降低到此限制

queryTimeout默认为0，查询超时时间

fetchsize JDBC的获取⼤⼩，它确定每次要获取多少⾏。这可以帮助提⾼JDBC驱动程序的性能batchsize默认为1000，JDBC批处理⼤⼩，这可以帮助提⾼JDBC驱动程序的性能。

isolationLevel 事务隔离级别，适⽤于当前连接。它可以是⼀个NONE，READ_COMMITTED，READ_UNCOMMITTED，REPEATABLE_READ，或SERIALIZABLE，对应于由JDBC的连接对象定义，缺省值为标准事务隔离级别READ_UNCOMMITTED。此选项仅适⽤于写作。

sessionInitStatemen

在向远程数据库打开每个数据库会话之后，在开始读取数据之前，此选项将执⾏⾃定义SQL语句，使⽤它来实现会话初始化代码。

truncate 这是与JDBC writer相关的选项。当SaveMode.Overwrite启⽤时，就会清空⽬标表的内容，⽽不是删除和重建其现有的表。默认为false

pushDownPredicate⽤于启⽤或禁⽤谓词下推到JDBC数据源的选项。默认值为true，在这种情况下，Spark将尽可能将过滤器下推到JDBC数据源。源码

SparkSession

/**

* Returns a [[DataFrameReader]] that can be used to read non-streaming data in as a

* `DataFrame`.

* {{{

* ad.parquet("/path/to/file.parquet")

* ad.schema(schema).json("/path/to/file.json")

* }}}

* @since 2.0.0

def read: DataFrameReader = new DataFrameReader(self)

mysql怎么读英语DataFrameReader

// ...省略代码...

/**

*所有的数据由RDD的⼀个分区处理，如果你这个表很⼤，很可能会出现OOM

*可以使⽤DataFrameDF.rdd.partitions.size⽅法查看

def jdbc(url: String, table: String, properties: Properties): DataFrame = {

assertNoSpecifiedSchema("jdbc")

}

/**

* @param url 数据库url

* @param table 表名

* @param columnName 分区字段名

* @param lowerBound `columnName`的最⼩值,⽤于分区步长

* @param upperBound `columnName`的最⼤值,⽤于分区步长.

* @param numPartitions 分区数量

* @param connectionProperties 其他参数

* @since 1.4.0

def jdbc(

url: String,

table: String,

columnName: String,

lowerBound: Long,

upperBound: Long,

numPartitions: Int,

connectionProperties: Properties): DataFrame = {

JDBCOptions.JDBC_PARTITION_COLUMN -> columnName,

JDBCOptions.JDBC_LOWER_BOUND -> String,

JDBCOptions.JDBC_UPPER_BOUND -> String,

JDBCOptions.JDBC_NUM_PARTITIONS -> String)

jdbc(url, table, connectionProperties)

}

/**

卵磷脂脱发* @param predicates 每个分区的where条件

* ⽐如："id <= 1000", "score > 1000 and score <= 2000"

* 将会分成两个分区

* @since 1.4.0

def jdbc(

url: String,

table: String,

predicates: Array[String],

connectionProperties: Properties): DataFrame = {

assertNoSpecifiedSchema("jdbc")

val params = Map ++ Map

val options = new JDBCOptions(url, table, params)

val parts: Array[Partition] = predicates.zipWithIndex.map { case (part, i) =>

JDBCPartition(part, i) : Partition

}

val relation = JDBCRelation(parts, options)(sparkSession)

sparkSession.baseRelationToDataFrame(relation)

}

⽰例

private def runJdbcDatasetExample(spark: SparkSession): Unit = {

常用函数公式大全excel求和// 从JDBC source加载数据(load)

val jdbcDF = ad

.format("jdbc")

.option("url", "jdbc:mysql://127.0.0.1:3306/test")

.option("dbtable", "mytable")

.option("user", "root")

.option("password", "root")

.load()

val connectionProperties = new Properties()

connectionProperties.put("user", "root")

connectionProperties.put("password", "root")

val jdbcDF2 = ad

jdbc("jdbc:mysql://127.0.0.1:3306/test", "mytable", connectionProperties)

数组规律算法四年级

// 指定读取schema的数据类型

connectionProperties.put("customSchema", "id DECIMAL(38, 0), name STRING")

val jdbcDF3 = ad

.jdbc("jdbc:mysql://127.0.0.1:3306/test", "mytable", connectionProperties)

}

值得注意的是，上⾯的⽅式如果不指定分区的话，Spark默认会使⽤⼀个分区读取数据，这样在数据量特别⼤的情况下，会出现OOM。在读取数据之后，调⽤DataFrameDF.rdd.partitions.size⽅法可以查看分区数。

Spark SQL批量写⼊MySQL

代码⽰例如下：

object BatchInsertMySQL {

case class Person(name: String, age: Int)

def main(args: Array[String]): Unit = {

// 创建sparkSession对象

val conf = new SparkConf()

.setAppName("BatchInsertMySQL")

val spark: SparkSession = SparkSession.builder()

.config(conf)

.getOrCreate()

import spark.implicits._

// MySQL连接参数

val url = JDBCUtils.url

val user = JDBCUtils.user

val pwd = JDBCUtils.password

// 创建Properties对象，设置连接mysql的⽤户名和密码

val properties: Properties = new Properties()

properties.setProperty("user", user) // ⽤户名

properties.setProperty("password", pwd) // 密码

properties.setProperty("driver", "sql.jdbc.Driver")

properties.setProperty("numPartitions","10")

// 读取mysql中的表数据

val testDF: DataFrame = ad.jdbc(url, "test", properties)

println("testDF的分区数： " + testDF.rdd.partitions.size)

testDF.persist(StorageLevel.MEMORY_AND_DISK)

testDF.printSchema()

val result =

s"""-- SQL代码

""".stripMargin

val resultBatch = spark.sql(result).as[Person]

println("resultBatch的分区数： " + resultBatch.rdd.partitions.size)

// 批量写⼊MySQL

// 此处最好对处理的结果进⾏⼀次重分区

/ 由于数据量特别⼤，会造成每个分区数据特别多

val list = new ListBuffer[Person]

record.foreach(person => {

val name = Person.name

val age = Person.age

list.append(Person(name,age))

})

upsertDateMatch(list) //执⾏批量插⼊数据

})

// 批量插⼊MySQL的⽅法

def upsertPerson(list: ListBuffer[Person]): Unit = {

var connect: Connection = null

var pstmt: PreparedStatement = null

try {

connect = Connection()

// 禁⽤⾃动提交

connect.setAutoCommit(false)

val sql = "REPLACE INTO `person`(name, age)" +

" VALUES(?, ?)"

pstmt = connect.prepareStatement(sql)

var batchIndex = 0

parameters的用法

for (person pstmt.setString(1, person.name)

pstmt.setString(2, person.age)

// 加⼊批次

pstmt.addBatch()

batchIndex +=1

// 控制提交的数量,

// MySQL的批量写⼊尽量限制提交批次的数据量，否则会把MySQL写挂 if(batchIndex % 1000 == 0 && batchIndex !=0){

pstmt.clearBatch()

}

// 提交批次

connectmit()

} catch {

case e: Exception =>

e.printStackTrace()

} finally {

JDBCUtils.closeConnection(connect, pstmt)

}

spark.close()

}

JDBC连接⼯具类：

object JDBCUtils {

val user = "root"

val password = "root"

val url = "jdbc:mysql://localhost:3306/mydb"

Class.forName("sql.jdbc.Driver")cruise是什么意思

// 获取连接

def getConnection() = {

}

// 释放连接

def closeConnection(connection: Connection, pstmt: PreparedStatement): Unit = {

try {

if (pstmt != null) {

pstmt.close()

}

} catch {

case e: Exception => e.printStackTrace()

} finally {

if (connection != null) {

connection.close()

}

总结

Spark写⼊⼤量数据到MySQL时，在写⼊之前尽量对写⼊的DF进⾏重分区处理，避免分区内数据过多。在写⼊时，要注意使⽤foreachPartition来进⾏写⼊，这样可以为每⼀个分区获取⼀个连接，在分区内部设定批次提交，提交的批次不易过⼤，以免将数据库写挂。

688IT编程网

easyexcel导出百万级数据_百万级数据批量读写入MySQL

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

easyexcel导出百万级数据_百万级数据批量读写入MySQL

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性