groupby多个字段性能_SQL性能优化--688IT编程网

groupby多个字段性能_SQL性能优化

SQL 的性能优化是数据库⼯程师在实际⼯作中必须⾯对的课题之⼀。对于某些数据库⼯程师来说，它⼏乎是唯⼀的课题。实际上，在像Web 服务这样需要快速响应的应⽤场景中，SQL 的性能直接决定了系统是否可以使⽤。在 SQL 中，很多时候不同代码能够得出相同结果。从理论上来说，得到相同结果

的不同代码应该有相同的性能，但遗憾的是，查询优化器⽣成的执⾏计划很⼤程度上要受到代码外部结构的影响。因此如果想优化查询性能，必须知道如何写代码才能使优化器的执⾏效率更⾼。

⼀、使⽤⾼效查询

1.1 参数是⼦查询时，使⽤ EXISTS 代替 IN

在⼤多时候，[NOT] IN 和 [NOT] EXISTS 返回的结果是相同的。但是两者⽤于⼦查询时，EXISTS 的速度会更快⼀些。

如下两张表中包含了选课程 A 和课程 B 的学⽣。

Table: class_A

Table: class_B

从 class_A 表中出同时选了课程 B 的学⽣。

-- slow

使⽤ EXISTS 时更快的原因有以下两个。

如果连接列 (id) 上建⽴了索引，那么查询 class_B 时不⽤查实际的表，只需查索引就可以了。

如果使⽤EXISTS，那么只要查到⼀⾏数据满⾜条件就会终⽌查询，不⽤像使⽤ IN 时⼀样扫描全表。在这⼀点上 NOT EXISTS 也⼀样。

当 IN 的参数是⼦查询时，数据库⾸先会执⾏⼦查询，然后将结果存储在⼀张临时的⼯作表⾥(内联视图)，然后扫描整个视图。很多情况下

从代码的可读性上来看，IN ⽐ EXISTS 好。使⽤这种做法都⾮常耗费资源。使⽤ EXISTS 的话，数据库不会⽣成临时的⼯作表。但是从代码的可读性上来看，IN ⽐ EXISTS 好

IN 时的代码看起来更加⼀⽬了然，易于理解。因此，如果确信使⽤ IN 也能快速获取结果，就没有必要⾮得改成 EXISTS 了。

1.2 参数是⼦查询时，使⽤联结代替 IN

针对上述的问题，也可以改⽤联结：

SELECT

这种写法⾄少能⽤到⼀张表的 "id" 列上的索引。⽽且，因为没有⼦查询，所以数据库也不会⽣成中间表。

⼆、避免排序

在 SQL 中会进⾏排序的代表型运算有：

GROUP BY ⼦句

ORDER BY ⼦句

DISTINCT

聚合函数 (SUM, COUNT, AVG, MAX, MIN)

集合运算符 (UNION, INTERSECT, EXCEPT)

窗⼝函数 (RANK, DENSE_RANK ROW_NUMBER)

2.1 灵活使⽤集合运算符的 ALL 可选项sql优化的几种方式

SQL 中有 UNION, INTERSECT 和 EXCEPT 三个集合运算符。在默认的使⽤⽅式下，这些运算符会为了排除掉重复数据⽽进⾏排序。SELECT

UNION 查询结果 -- ⽆重复项

如果不在乎结果中是否有重复数据，或者事先知道不会有重复数据，尽量使⽤ UNION ALL 代替 UNION。这样就不会进⾏排序了。SELECT

UNION ALL 查询结果 -- 有重复项

对于 INTERSECT 和 EXCEPT 也是⼀样的，加上 ALL 可选项后就不会进⾏排序了。加上 ALL 可选项是优化性能的⼀个⾮常有效的⼿段，但在 MySQL 中不⽀持 INTERCEPT ALL 和 EXCEPT ALL。

2.2 使⽤ EXISTS 代替 DISTINCT

为了排除重复数据，DISTINCT 也会进⾏排序。如果需要对两张表的联结结果进⾏去重，可以考虑使⽤ EXISTS 代替 DISTINCT，以避免排序。

如下 Items 表中包含某公司的各商品编号及名称；SalesHistory 表中包含各商品的销售情况。

Table: Item

Table: SalesHistory

从上⾯的商品表 Items 中出同时存在于销售记录表 SalesHistory 中的商品

-- slow

2.3 在极值函数中使⽤索引

SQL 语⾔⾥有 MAX 和 MIN 两个极值函数。使⽤这两个函数时都会进⾏排序。但是如果参数字段上建有索引，则只需要扫描索引，不需要扫描整张表。以刚才的表 Items 为例来说，SQL 语句可以像下⾯这样写:

-- slow

因为 item_no 是表 Items 的唯⼀索引，所以效果更好。对于联合索引，只要查询条件是联合索引的第⼀个字段，索引就是有效的，所以也可以对表 SalesHistory 的 sale_date 字段使⽤极值函数。这种⽅法并不是去掉了排序这⼀过程，⽽是优化了排序前的查速度，从⽽减弱排序对整体性能的影响。

2.4 能写在 WHERE ⼦句⾥的条件不要写在 HAVING ⼦句⾥

例如，下⾯两条 SQL 语句返回的结果是⼀样的。

-- slow

但是从性能上来看，第⼆条语句写法效率更⾼。原因通常有两个。

在使⽤ GROUP BY⼦句聚合时会进⾏排序，如果事先通过 WHERE ⼦句筛选出⼀部分⾏，就能够减轻排序的负担。

很多时候聚合后的视图都没有继在 WHERE ⼦句的条件⾥可以使⽤索引。HAVING ⼦句是针对聚合后⽣成的视图进⾏筛选的，但是很多时候聚合后的视图都没有继承原表的索引结构。

承原表的索引结构

2.5 在 GROUP BY ⼦句和 ORDER BY ⼦句中使⽤索引

⼀般来说，GROUP BY ⼦句和 ORDER BY ⼦句都会进⾏排序，来对⾏进⾏排列和替换。不过，通过指定带索引的列作为 GROUP BY 和ORDER BY 的列，可以实现⾼速查询。特别是，在⼀些数据库中，如果操作对象的列上建⽴的是唯⼀索引，那么排序过程本⾝都会被省略掉。

三、使⽤索引

3.1 尽量避免在索引字段上进⾏运算

假设我们在⼀个叫作 col_1 的列上建⽴了索引，然后来看⼀看下⾯这条 SQL 语句。这条 SQL 语句本来是想使⽤索引，但实际上执⾏时却进⾏了全表扫描。

SELECT

像下⾯这样把运算的表达式放到查询条件的右侧，就能⽤到索引了。

SELECT

同样，在查询条件的左侧使⽤函数时，也不能⽤到索引。

SELECT

使⽤索引时，条件表达式的左侧应该是原始字段。

3.2 不要对索引使⽤ IS NULL 谓词

索引字段通常是不存在 NULL 的，所以指定 IS NULL 和 IS NOT NULL 的话会使索引⽆法使⽤，进⽽导致查询性能低下。

SELECT

如果需要使⽤类似 IS NOT NULL 的功能，⼜想⽤到索引，那么可以使⽤下⾯的⽅法，假设“col_1”列的最⼩值是 1。

-- IS NOT NULL 的替代⽅案

3.3 尽量避免否定形式

下⾯这⼏种否定形式不能⽤到索引。

NOT IN

因此，下⾯的 SQL 语句也会进⾏全表扫描。

SELECT

3.4 尽量避免使⽤ OR

在 col_1 和 col_2 上分别建⽴了不同的索引，或者建⽴了 (col_1, col_2) 这样的联合索引时，如果使⽤ OR 连接条件，那么要么⽤不到索引，要么⽤到了但是效率⽐ AND 要差很多。

3.5 使⽤联合索引时注意列的顺序

假设存在这样顺序的⼀个联合索引“col_1, col_2, col_3”。这时，指定条件的顺序就很重要。联合索引中的第⼀列 (col_1) 必须写在查询条件的开头，⽽且索引中列的顺序不能颠倒。有些数据库⾥顺序颠倒

后也能使⽤索引，但是性能还是⽐顺序正确时差⼀些。

-- fast

3.6 使⽤ LIKE 谓词前⽅⼀致

使⽤ LIKE 谓词时，只有前⽅⼀致的匹配才能⽤到索引。

-- fast

四、减少中间表

频繁使⽤中间表会带来两个问题，⼀是展开数据需要耗费内存资源，⼆是原始表中的索引不容易使⽤到(特别是聚合时)。因此，尽量减少中间表的使⽤也是提升性能的⼀个重要⽅法。

4.1 灵活使⽤ HAVING ⼦句

HAVING ⼦句和聚合操作是同时执⾏的，所以⽐起⽣成中间表后再执⾏的 WHERE ⼦句，效率会更⾼⼀些，⽽且代码看起来也更简洁。

-- slow

4.2 需要对多个字段使⽤ IN 谓词时，将他们汇总到⼀处

这种⽅法与前⾯的连接字段的⽅法相⽐有两个优点。⼀是不⽤担⼼连接字段时出现的类型转换问题，⼆是这种⽅法不会对字段进⾏加⼯，因此可以使⽤索引。

-- slow

4.3 先联结再聚合

先联结可以避免产⽣中间表。因为从集合运算的⾓度来看，联结做的是“乘法运算”。联结表双⽅是⼀对⼀、⼀对多的关系时，联结运算后数据的⾏数不会增加。⽽且，因为在很多设计中多对多的关系都可以分解成两个⼀对多的关系，因此这个技巧在⼤部分情况下都可以使⽤。

4.4 合理使⽤视图

在视图的定义语句中包含以下运算的时候，SQL 会⾮常低效，执⾏速度也会变得⾮常慢。

聚合函数 (SUM, COUNT, AVG, MAX, MIN)

集合运算符 (UNION, INTERSECT, EXCEPT)

688IT编程网

groupby多个字段性能_SQL性能优化

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

groupby多个字段性能_SQL性能优化

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则