SQL优化终于⼲掉了“distinct”
SQL优化之多表联合查询⼲掉“distinct”去重关键字
⼀、优化⽬的
在我提交了代码的时候,架构师给我指出我这个sql这样写会有问题。因为在分库分表的时候,是不⽀持⼦查询的。
所以需要把多表的⼦查询的sql结构进⾏优化。
⼆、优化之前的sql长这样
是不是挺恐怖的;(此处为了脱敏,我把相关的sql关键词都给打码掉了)
这个sql的执⾏步骤如下:
1、查询出来d表中的某个id字段包含多个id值的所有的数据(因为此表是1-n的关系,所以需要去重,仅需要拿到不重复的id才可以继续下⼀个步骤);可以看到此步骤我把查询出来的多个值的结果给⽣成的
了⼀个⼦表名为sss;
2、下⼀个步骤就是需要进⾏排序(以时间进⾏倒序排序,因为要在前台进⾏按时间进⾏展⽰);
3、第3步就是把这些结果与a表进⾏合并,查询出来排序后的每个id的信息;然后进⾏分页处理;
其他的可以不必关⼼,最终要的是去重关键字(DISTINCT),拿⼩本本记号,⼀会要考哦。
三、DISTINCT关键字的⽤法
实践是验证真理的唯⼀标准
例如有下表:
可以看到name和product_unit列的值都有可能是重复的。
mysql>SELECT t1.id,t1.name,t1.product_unit  FROM dd_product_category t1;
+----+----------+--------------+
| id | name    | product_unit |
+----+----------+--------------+
|55|饮料|瓶|
|56|饮料|箱|
|57|零⾷|包|
|59|膨化⾷品|袋|
|60|⽅便⾷品|箱|
|61|⾃热⽕锅|碗|
|62|⽅便⾯|箱|
|63|矿泉⽔|箱|
|64|糖果||
|65|酒类|箱|
|66|烈酒|箱|
|67|啤酒|箱|
|68|预调酒|箱|
+----+----------+--------------+
13rows in set(0.13 sec)
mysql>
mysql>
如何我们想只拿到name或者product_unit列的值并且不想要重复的值该怎么办?
1、拿到单个值是好拿的,但是是存在重复的数据的,这些重复的数据我们只保留⼀个就可以了,那么该怎么做呢?
mysql>SELECT t1.product_unit  FROM dd_product_category t1;
+--------------+
| product_unit |
+--------------+
|瓶|
|箱|
|包|
|袋|
|箱|
|碗|
|箱|
|箱|
||
|箱|
|箱|
|箱|
|箱|
+--------------+
13rows in set(19.31 sec)
mysql>
2、去除重复列
mysql>
mysql>SELECT DISTINCT t1.product_unit  FROM dd_product_category t1;
+--------------+
| product_unit |
+--------------+
|瓶|
|箱|
|包|
|袋|
|碗|
||
+--------------+
6rows in set(0.11 sec)
mysql>
是不是很简单,虽然看着简单,但是如果多表⼦查询的时候,就会出现问题,例如你想要查询表a,b,c三个表的数据,这三个表必然都是有关系的。
a和b是1-n的关系。但是你只有b表中id,你需要先查询出来b表的数据,然后利⽤b表的数据去查询a表的数据,然后再去查询c表的数据。
想必肯定是很绕的。
整个过程中你肯定是需要去重的
当整个sql写完,基本上跟我写的优化前的sql也就差不多了。(多表嵌套,多sql嵌套sql,啦啦啦⼀⼤堆)。
优化思路还是有很多的,当时能想到的就是把这个复杂的sql拆分成多个简单的sql执⾏,然后使⽤Java后台代码进⾏处理。(对于不⽢于现状的我,想到⼀个⽐这个更友好的解决⽅案的我,我是不会屈服这个问题的。)
四、谈:如何优化distinct的sql
说到这⾥,先给⼤家放上⼀个链接:
推荐⼤家阅读。
Mysql5.7官⽅⼿册中提及到的关于优化distinct的⽅法,原⽂如下:
MySQL 5.7 Reference Manual / … / DISTINCT Optimization
8.2.1.16 DISTINCT Optimization
DISTINCT combined with ORDER BY needs a temporary table in many cases.
distinct 与order by 结合的许多情况下需要建⼀个临时表;
mysql删除重复的数据保留一条Because DISTINCT may use GROUP BY, learn how MySQL works with columns in ORDER BY or HAVING clauses that are
not part of the selected columns. See Section 12.20.3, “MySQL Handling of GROUP BY”.
因为distinct可能使⽤group by,了解MySQL如何处理按order by 列或者具有不属于所选列的⼦句。见12.20.3节, “MySQL Handling of GROUP BY”.
In most cases, a DISTINCT clause can be considered as a special case of GROUP BY. For example,
the following two queries are equivalent:
在⼤多数情况下,⼀个不同的⼦句可以被认为是group by 的特殊情况。例如下⾯这两个查询是等价的:
SELECT DISTINCT c1, c2, c3 FROM t1
WHERE c1 > const;
SELECT c1, c2, c3 FROM t1
WHERE c1 > const GROUP BY c1, c2, c3;
Due to this equivalence, the optimizations applicable to GROUP BY queries can be also applied to queries with a DISTINCT clause. Thus, for more details on the optimization possibilities for DISTINCT queries, see Section 8.2.1.15, “GROUP BY Optimization”.
由于这种等价性,适⽤于group by查询的优化,也可以应⽤于具有不同⼦句的查询。因此,关于distinct的查询优化的更多细节可以参考Section 8.2.1.15,“GROUP BY Optimization”.
When combining LIMIT row_count with DISTINCT, MySQL stops as soon as it finds row_count unique rows.
当row_count与distinct⼀起使⽤时,MySQL⼀旦发现row_count是唯⼀的⾏,就会停⽌。
If you do not use columns from all tables named in a query, MySQL stops scanning any unused tables as soon as it finds the first match. In the following case, assuming that t1 is used before t2 (which you can check with EXPLAIN), MySQL stops reading from t2 (for any particular row in t1) when it finds the first row in t2:
如果在查询中不适⽤来⾃所有表的列,MySQL⼀旦到第⼀个匹配项就会停⽌扫描任何未使⽤的表。
在下⾯的例⼦中,假设t1在t2之前使⽤(你可以使⽤explanin来检查),MySQL在到t2的第⼀⾏时停⽌从t2读取(对于t1中的任何特定⾏)。
SELECT DISTINCT t1.a FROM t1, t2 where t1.a=t2.a;
官⽅的⼿册中写到的,真是句句扣⼼呀
总结有以下⽐较重要的⼏点:
1、distinct与group by⼏乎等价;
2、distinct的相关优化与group by的查询优化⽅法是等价的;
五、distinct真的和group by等价吗?
我们抱着试试看的态度,去做个试验。
就以下列这个效果为最终⽬的好了:
mysql>
mysql>SELECT DISTINCT t1.product_unit  FROM dd_product_category t1;
+--------------+
| product_unit |
+--------------+
|瓶|
|箱|
|包|
|袋|
|碗|
||
+--------------+
6rows in set(0.11 sec)
mysql>
使⽤group by去重:
mysql>select  t1.product_unit from dd_product_category t1 group by t1.product_unit;
+--------------+
| product_unit |
+--------------+
||
|包|
|瓶|
|碗|
|箱|
|袋|
+--------------+
6rows in set(19.46 sec)
mysql>
可以看到,最终拿到的数据是⼀模⼀样的。
那么我们试验是成功的,distinct的效果和group by的效果是⼀样的。
那么我们优化distinct就变向的去优化group by了(我优化前的sql并未使⽤group by所以谈不上优化group by,只能说是把distinct的复杂sql改造成group by 的sql)。
由于原⽂⽐较长,这⾥就不在过多赘述。
现在需要做的就是把distinct改造成group by的sql语法的写法。
六、优化后的sql长啥样?
怎么样,改造后的sql,是不是还挺清爽的。
1、我们扔掉了多个嵌套sql;
2、也不⽤去⽣成⼀个sss的临时表了
七、总结
对于本⼈⽽⾔学到了:
1、distinct与group by⼏乎等价;
2、distinct的相关优化与group by的查询优化⽅法是等价的;
3、如果distinct的不能让sql最优化,那么可以尝试着使⽤group by的⽅式去改造⼀下。
这些我都上传到了百度云。
为了防⽌链接丢失可以关注,回复:"mysql"。即可拿到MySQL相关的全部精彩内容。
欢迎⼀起学习,⼀起交流,⼀起进步。
关注我第⼀时间推送给你精彩内容哦:
回复菜单,更有好礼,惊喜在等着你。
2020.10.14更【来⾃评论区⼤佬的精彩观点】
感谢煎蛋没有蛋这位⼤佬提出的精彩观点
CSDN博客名:煎蛋没有蛋:
有distinct其实⼀⽅⾯也代表着表连接不到位或查询条件限制不到位或者是表结构设计不合理。
博主客⽓了,在传统的范式模型中,的确不应该出现这样的去重问题,你想取不重复的单位 应该有单位表;产品,应该有产品表,产品表中只有单位的id,取单位的名称直接查询单位表即可。但是在olap的场景下,现在都是拿空间换时间的,所以也有可能出现冗余字段的,只是从职业习惯上,⼀般看到需要去重的地⽅,都会回去扒拉下代码,看看是不是出了笛卡尔积。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。