记一次使用SPARK生成自增ID的解决方案--688IT编程网

记⼀次使⽤SPARK⽣成⾃增ID的解决⽅案

在这个项⽬中遇到的⼀个问题，由于数据库使⽤的是GREENPLUM，GREENPLUM提供的SPARK驱动是使⽤的先⽣成外部表，然后在使⽤INSERT 表名 SELECT * FROM 外部表的⽅式⽅法导⼊数据的。并且这种⽅式不⽀持⾃增ID。于是我们开始尝试使⽤SPARK或其他⽅式⽣成ID。

1、使⽤REDIS⽣成⾃增ID。

优点：使⽤REDIS的INCNY实现⾃增，并且没有并发问题，REDIS集环境完全可以满⾜要求。

缺点：因为每次都要去REDIS上取ID，SPARK与REDIS之间每次都是⼀次⽹络传输，少则10⼏ms，多则⼏百ms。⽽且SPARK与REDIS 形成了依赖关系。⼀旦REDIS挂了，SPARK就会出现问题。所以我们放弃了这个⽅案。

2、使⽤SPARKSQL的函数和withcolumn⽣成⾃增ID

val newDf = dataFrame.withColumn("id",org.apache.spark.w_number().over(Window.partitionBy(batch).orderBy(index))

由于上⾯的代码⽣成新的dataFrame，分区会变成⼀个，所以要转成RDD，重新repartition⼀下。

val newRdd = partition(10)

greenplum数据库

val df = ateDataFrame(newRdd,schema)

由于有repartition操作，这⾥会出现shuffle。所以存在性能问题。对于我们要求⼤批量快速⼊库的要求不能满⾜。所以不能采⽤。

3、使⽤zipWithIndex在⽣成RDD[ROW]时⽣成ID

val tempRdd = rdd.zipWithIndex()

val record = tempRdd.map(x=>{

var strArray = x._1.split(",")

val newArray = strArray.+:(x._2).toString)

newArray

})

这个⽅案是参考了下⾯这个博客弄出来的

发表评论

688IT编程网

记一次使用SPARK生成自增ID的解决方案

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

记一次使用SPARK生成自增ID的解决方案

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式