SQL查询并不是从SELECT开始的
关注
“脚本之家
”,与百万开发者在⼀起
出处:HelloGitHub(ID: GitHub520)
如若转载请联系原原⽂地址:SQL queries don't start with SELECT
原⽂作者:Julia Evans(已授权)
译者 & 校正:HelloGitHub-⼩熊熊 & 卤蛋
⽇常使⽤中写 SQL 查询命令都是以 SELECT 开始的(注意:本⽂仅探讨 SELECT 查询,不涵盖 insert 或其他 SQL 命令)。
昨天我想到⼀个问题:可以⽤ WHERE、HAVING 或者其他⽅式来过滤窗⼝函数执⾏结果吗?
经过⼀番探索,我得出的最终结论是否定的,因为窗⼝函数必须在 WHERE 和 GROUP BY 之后才能运⾏。但是,这也延伸到了⼀个更⼤的问题——SQL 查询的执⾏顺序是怎么样的呢?
SQL 查询执⾏顺序
我专门查了⼀下⽂档 SQL 查询执⾏顺序如下:
如果不喜欢以上五彩斑斓的图⽚形式,也可以看下⾯的⽂字:
1.
FROM/JOIN/ON
2.
WHERE
3.
GROUP BY
4.
HAVING
5.
SELECT (窗⼝函数即在此步骤执⾏)
6.
ORDER BY
7.
LIMIT
上图可以解答你的如下疑惑:
上图是 SQL 查询的语义说明。看懂这张图,便能迅速判断⼀个给定的 SQL 查询将会返回什么结果,也可以轻松解答如下疑问:
可以对 GROUP BY 的结果进⾏ WHERE 筛选吗?(不可以!因为 WHERE 在 GROUP BY 之前执⾏)
可以对窗⼝函数的执⾏结果进⾏过滤吗?(不可以!因为窗⼝函数在 SELECT 步骤执⾏,⽽这步是在 WHERE 和GROUP BY 之后)
可以对 GROUP BY 的结果再执⾏ ORDER BY 操作吗? (可以! ORDER BY 基本上是最后⼀个步骤了,所以可以对任何操作的执⾏结果执⾏ ORDER BY )
LIMIT 执⾏在哪个步骤? (最后⼀步!)
虽然如此,但实际上数据库引擎并⾮严格按照这个顺序运⾏查询,因为它们还会执⾏⼀系列的优化,以便提升查询速度。
所以:
当你想了解查询语句的有效性,或是想搞明⽩为什么会返回这样⼀个查询结果时,可以尝试⽤该图来解释;
但是,使⽤该图是⽆法解释查询性能或索引相关问题的,它们会涉及到更多变量,因⽽也更为复杂。
⼀、最容易搞混的:列别名
⽐如:关联姓和名,并对其进⾏分组。SQL 语法是允许这样写:
SELECTCONCAT(first_name, ' ', last_name) ASfull_name, count(*)
FROMtable
GROUPBYfull_name
上⾯的查询看起来像是在 SELECT 之后执⾏ GROUP BY ,但其实 GROUP BY 是先执⾏的,因为 GROUP BY 引⽤了SELECT 中的 alias 。
数据库引擎是可以将查询重写为:
SELECTCONCAT(first_name, ' ', last_name) ASfull_name, count(*)
FROMtable
GROUPBYCONCAT(first_name, ' ', last_name)
接着,先执⾏ GROUP BY 中的语句,再进⾏ SELECT 操作,所以上⾯那么写是可⾏的。
sql语句查询不包含此外,数据库引擎肯定会执⾏⼀系列检查,以确保在查询开始运⾏之前, SELECT 和 GROUP BY 中的内容相匹配,因此在制定执⾏计划之前,它必须将查询语句当作⼀个整体来检查。
⼆、查询并⾮严格按照此顺序运⾏(优化)
实际上,数据库引擎并不是通过连接、过滤和分组来运⾏查询,因为它实现了⼀系列优化来提升查询
速度,如重新排序(只要不影响最终返回结果)。
这⾥列举⼀个简单的例⼦来说明查询的执⾏顺序是如何影响了查询性能。
SELECT* FROM
owners LEFTJOINcats ONowners.id = cats.owner
WHEREcats.name = 'mr darcy'
如果只需要查 3 个名为“mr darcy”的猫,那么执⾏整个左连接并匹配这两个表中的所有⾏是很慢的。相反,如果先对名为“mr darcy”的猫进⾏筛选再去执⾏连接,则要快得多。在这种情况下,先执⾏过滤不会改变查询的结果!
实际上,数据库引擎还实现了许多其他的优化,使得查询语句以另外的顺序来执⾏,这⾥暂且不表。
三、不⼀样的查询语法
LINQ(C# 和 VB.NET 中的查询语法)是按照 FROM ... WHERE ... SELECT 的顺序来执⾏查询。以下是 LINQ 查询的⽰例:
varteenAgerStudent = froms instudentList
wheres.Age > 12&& s.Age < 20
selects;
Pandas(Python 数据统计分析⼯具)也基本上是这样⼯作的,尽管有时候不需要严格按照下⾯的顺序来编写代码,但这样也不失为⼀种好习惯:
df = thing1.join(thing2) # like a JOIN
df = ated_at > 1000] # like a WHERE
df = df.groupby( 'something', num_yes = ( 'yes', 'sum')) # like a GROUP BY
df = df[df.num_yes > 2] # like a HAVING, filtering on the result of a GROUP BY
df = df[[ 'num_yes', 'something1', 'something']] # pick the columns I want to display, like a SELECT
df.sort_values( 'sometthing', ascending= True)[: 30] # ORDER BY and LIMIT
df[: 30]
这并不是因为 Pandas 的强制规定,只是按照 JOIN/WHERE/GROUP BY/HAVING 的顺序来编写代码更有助于理解底层逻辑。(值得⼀提的是,可以在 JOIN 之前先执⾏ WHERE 来提⾼性能,⼤多数数据库引擎在实践中也是这样来执⾏的)
R 中的 dplyr(R 语⾔⽤来操作数据框的包)还允许采⽤不同的语法查询不同的 SQL 数据库,如:Postgres、MySQL 和 SQLite。
最后
当我发现 SQL 查询语句的这种执⾏顺序时,我其实是⾮常惊讶的。通过探究 SQL 查询语句的执⾏顺序,把我之前遇到的问题搞清楚了。也希望本⽂能帮助到更多的⼈理解 SQL 的执⾏顺序以及如何正确编写 SQL 查询语句。
为雷总点赞!
阿⾥⼆⾯:怎么解决MySQL死锁问题的?
同事问我,SQL 语句明明命中了索引,为什么执⾏很慢?
⾯试题:mysql ⼀棵 B+ 树能存多少条数据?
35 张图带你 MySQL 调优
47 张图带你 MySQL 进阶

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。