spark删除mysql记录_在spark中操作mysql数据---spark学习之七--688IT编程网

spark删除mysql记录_在spark中操作mysql数据----spark学习

之七

使⽤spark的 DataFrame 来操作mysql数据。

DataFrame是⽐RDD更⾼⼀个级别的抽象，可以应⽤SQL语句进⾏操作，详细参考：

这⾥暂时使⽤spark-shell进⾏操作，

1.⾸先，必须要先下载⼀个mysql的jdbc的驱动

可以从这⾥下载

2.然后呢，就好办了。

#具体的启动spark-shell的⽅法(带上mysql的driver)

$~/spark-shell --driver-class-path /path-to-mysql-jar/mysql-connector-java-5.1.34-bin.jar

#定义mysql的信息

val url="jdbc:mysql://10.181.176.226:3306/geo_info"val prop=new java.util.Properties

prop.setProperty("user","geo")

mysql下载jar包prop.setProperty("password","xxxxxx”)

#指定读取条件，这⾥ Array("country_code='CN'") 是where过滤条件

val cnFlight= ad.jdbc(url,"gps_location",Array("country_code='CN'"),prop)

#然后进⾏groupby 操作，获取数据集合

val emailList= upBy("gps_city", "user_mail”)

#计算数⽬，并根据数⽬进⾏降序排序

val sorted= unt().orderBy( desc("count") )

#显⽰前10条

sorted.show(10)

#存储到⽂件(这⾥会有很多分⽚⽂件。。。)

sorted.rdd.saveAsTextFile("/home/qingpingzhang/data/flight_top”)

#存储到mysql表⾥

sorted.write.jdbc(url,"table_name",prop)

3.具体⽂件编写代码，然后提交worker也类似，主要是DataFrame的 sqlContext声明会不⼀样。

val sc: SparkContext //An existing SparkContext.

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

这⾥如果要⽤spark-submit，则会有坑，即便你是⽤sbt的assembly来打包的⼀个全的jar包：

[itelbog@iteblog ~]$ bin/spark-submit --master local[2] --driver-class-path lib/mysql-connector-java-5.1.35.jar --class spark.SparkToJDBC ./spark-test_2.10-1.0.jar

发表评论

688IT编程网

spark删除mysql记录_在spark中操作mysql数据---spark学习之七

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

spark删除mysql记录_在spark中操作mysql数据---spark学习之七

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法