SparkSQL的执行流程(附常量折叠、谓词下推、列裁剪案例)--688IT编程网

SparkSQL的执⾏流程（附常量折叠、谓词下推、列裁剪案

例）

1、RDD 和 SparkSQL 运⾏时的区别：

和 RDD 不同, SparkSQL 的 Dataset 和 SQL 并不是直接⽣成计划交给集执⾏, ⽽是经过了⼀个叫做 Catalyst 的优化器, 这个优化器能够⾃动帮助开发者优化代码。

2、SparkSQL 的执⾏流程：

1、Parser转换器，第三⽅类库 Antlr 实现。将 sql 字符串切分成 Token，根据语义规则解析成⼀颗AST语法树，称为Unresolved Logical Plan 未解决的逻辑计划；

简单来说就是判断 SQL 语句是否符合规范，⽐如select from where 这些关键字是否写对。就算表名字段名写错也⽆所谓。

2、Unresolved Logical Plan经过Analyzer分析器，借助于表的真实数据元数据 schema catalog，进⾏数据类型绑定和函数绑定，解析为 resolved Logical Plan 已解决的逻辑计划；

sql语句优化方式简单来说就是判断 SQL 语句的表名，字段名是否真的在元数据库⾥存在。

3、Optimizer优化器，基于各种优化规则（常量折叠，谓词下推，列裁剪），将上⾯的resolved Logic

al Plan进⼀步转换为语法树Optimized Logical Plan 优化的逻辑计划。这个过程称作 RBO（Rule Based Optimizer 基于规则的优化)）。

简单来说就是把可执⾏的SQL 再调整⼀下，以便跑得更快。

4、query planner 查询计划器，基于 planning 计划过程，将逻辑计划转换成多个物理计划，再根据代价模型 cost model，筛选出代价最⼩的物理计划。这个过程称之为 CBO（Cost Based Optimizer 基于成本的优化）。

上⾯2-3-4步骤合起来，就是 Catalyst 优化器。

5、最后依据最优的物理计划，⽣成 java 字节码，将 SQL 转换为 DAG，以 RDD 形式进⾏操作。

3、Catalyst 的两⼤优化：

3.1 RBO：基于规则的优化，⽐如谓词下推，列裁剪，常量折叠。

常量折叠案例：

select 1+1 as id from table1

会优化为（会提前将 1+1 计算折叠成 2，再赋给 id 列的每⾏，不⽤每⾏都计算⼀次 1+1）

select 2 as id from table1

谓词下推案例：

select * from table1 ajoin table2 b on a.id=b.idwhere a.age>20and b.cid=1

会优化为（在⼦查询阶段就提前将数据进⾏过滤，后期 join 的 shuffle 数据量就⼤⼤减少）

select * from （ select * from table1 where age>20） ajoin (select * from table2 where cid=1) b on a.id=b.id

列裁剪案例：

select a.name, a.age, b.cidfrom (select * from table1 where a.age>20) ajoin (select * from table2 where b.cid=1) b on a.id=b.id

会优化为（提前将需要的列查询出来，其他不需要的列裁剪掉）

select a.name, a.age, b.cidfrom (select name,age,id from table1 where a.age>20) ajoin (select

id,cid from table2 where b.cid=1) b on a.i CBO：基于代价的优化，多种物理计划基于cost model，选取最优的执⾏耗时最少的那个物理计划。

4、explain参看逻辑计划和物理计划：

SparkSQL中的DSL⽅式：

spark.sql('select count(1) from test_db.table1').explain(True)

普通SQL⽅式：

explain extended select count(1) from table1;

688IT编程网

SparkSQL的执行流程(附常量折叠、谓词下推、列裁剪案例)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

SparkSQL的执行流程(附常量折叠、谓词下推、列裁剪案例)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式