Spark读取Hive数据的方式--688IT编程网

Spark读取Hive数据的⽅式

Spark读取Hive数据的⽅式主要有两种：

1、通过访问hive metastore的⽅式，这种⽅式通过访问hive的metastore元数据的⽅式获取表结构信息和该表数据所存放的HDFS路径，这种⽅式的特点是效率⾼、数据吞吐量⼤、使⽤spark操作起来更加友好。

2、通过spark jdbc的⽅式访问，就是通过链接hiveserver2的⽅式获取数据，这种⽅式底层上跟spark链接其他rdbms上⼀样，可以采⽤sql的⽅式先在其数据库中查询出来结果再获取其结果数据，这样⼤部分数据计算的压⼒就放在了数据库上。

两种⽅式的具体实现⽰例

⾸先创建Spark Session对象：

val spark = SparkSession.builder()

.appName("test")

.enableHiveSupport()

.getOrCreate()

⽅式⼀（推荐）直接采⽤Spark on Hive的⽅式读取数据，这样SparkSession在使⽤sql的时候会去集hive中的库表，加载其hdfs数据与其元数据组成DataFrame

val df = spark.sql("select * from test.user_info")

⽅式⼆采⽤spark jdbc的⽅式，如果有特别的使⽤场景的话也可以通过这种⽅法来实现。

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.jdbc.{JdbcDialect, JdbcDialects}

object test{

def main(args: Array[String]): Unit = {

val spark = SparkSession.builder()

.master("local[2]")

.appName("test")

.getOrCreate()

val df = ad

.format("jdbc")

.option("driver","org.apache.hive.jdbc.HiveDriver")

.option("url","jdbc:hive2://xxx:10000/")

.option("user","hive")

.option("password",xxx)

.option("fetchsize", "2000")

.option("dbtable","test.user_info")

.load()

df.show(10)

}

def register(): Unit = {

session如何设置和读取

}

case object HiveSqlDialect extends JdbcDialect {

override def canHandle(url: String): Boolean = url.startsWith("jdbc:hive2")

override def quoteIdentifier(colName: String): String = {

colName.split('.').map(part => s"`$part`").mkString(".")

}

688IT编程网

Spark读取Hive数据的方式

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

Spark读取Hive数据的方式

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行