SparkSQL操作JSON字段的小技巧--688IT编程网

SparkSQL操作JSON字段的⼩技巧

sql 字符串转数组前⾔

介绍Spark SQL的JSON⽀持，这是我们在Databricks中开发的⼀个功能，可以在Spark中更容易查询和创建JSON数据。随着⽹络和移动应⽤程序的普及，JSON已经成为Web服务API以及长期存储的常⽤的交换格式。使⽤现有的⼯具，⽤户通常会使⽤复杂的管道来在分析系统中读取和写⼊JSON数据集。在Apache Spark 1.1中发布Spark SQL的JSON⽀持，在Apache Spark 1.2中增强，极⼤地简化了使⽤JSON数据的端到端体验。

很多时候，⽐如⽤structure streaming消费kafka数据，默认可能是得到key,value字段，key是偏移量，value是⼀个byte数组。很可能value其实是⼀个Json字符串。这个时候我们该如何⽤SQL操作这个json⾥的东西呢？另外，如果我处理完的数据，我想写⼊到kafka，但是我想把整条记录作为json格式写⼊到Kafka,⼜该怎么写这个SQL呢？

get_json_object

第⼀个就是get_json_object，具体⽤法如下：

select get_json_object('{"k": "foo", "v": 1.0}','$.k') as k

需要给定get_json_object ⼀个json字段名（或者字符串），然后通过类似jsonPath的⽅式去拿具体的值。

这个⽅法其实有点⿇烦，如果要提取⾥⾯的是个字段，我就要写是个类似的东西，很复杂。

from_json

具体⽤法如下：

select a.k from (

select from_json('{"k": "foo", "v": 1.0}','k STRING, v STRING',map("","")) as a

)

这个⽅法可以给json定义⼀个Schema，这样在使⽤时，就可以直接使⽤a.k这种⽅式了，会简化很多。

to_json

该⽅法可以把对应字段转化为json字符串，⽐如：

select to_json(struct(*)) AS value

可以把所有字段转化为json字符串，然后表⽰成value字段，接着你就可以把value字段写⼊Kafka了。是不是很简单。

处理具有⼤量字段的JSON数据集

JSON数据通常是半结构化、⾮固定结构的。将来，我们将扩展Spark SQL对JSON⽀持，以处理数据集中的每个对象可能具有相当不同的结构的情况。例如，考虑使⽤JSON字段来保存表⽰HTTP标头的键/值对的数据集。每个记录可能会引⼊新的标题类型，并为每个记录使⽤⼀个不同的列将产⽣⼀个⾮常宽的模式。我们计划⽀持⾃动检测这种情况，⽽是使⽤map类型。因此，每⾏可以包含Map，使得能够查询其键/值对。这样，Spark SQL将处理具有更少结构的JSON数据集，推动了基于SQL的系统可以处理的那种查询的边界。

总结

以上就是这篇⽂章的全部内容了，希望本⽂的内容对⼤家的学习或者⼯作具有⼀定的参考学习价值，如果有疑问⼤家可以留⾔交流，谢谢⼤家对的⽀持。

688IT编程网

SparkSQL操作JSON字段的小技巧

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

SparkSQL操作JSON字段的小技巧

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式