mysqldistinct慢_分析MySQL中优化distinct的技巧--688IT编程网

mysqldistinct慢_分析MySQL中优化distinct的技巧

有这样的⼀个需求：select count(distinct nick) from user_access_xx_xx;

这条sql⽤于统计⽤户访问的uv，由于单表的数据量在10G以上，即使在user_access_xx_xx上加上nick的索引，

通过查看执⾏计划，也为全索引扫描，sql在执⾏的时候，会对整个服务器带来抖动；

root@db 09:00:12>select count(distinct nick) from user_access;

+———————-+

| count(distinct nick) |

+———————-+

| 806934 |

+———————-+

1 row in set (52.78 sec)

执⾏⼀次sql需要花费52.78s，已经⾮常的慢了

现在需要换⼀种思路来解决该问题：

我们知道索引的值是按照索引字段升序的，⽐如我们对(nick，other_column)两个字段做了索引，那么在索引中的则是按照

nick，other_column的升序排列：

我们现在的sql：select count(distinct nick) from user_access；则是直接从nick1开始⼀条条扫描下来，直到扫描到最后⼀个nick_n,

那么中间过程会扫描很多重复的nick，如果我们能够跳过中间重复的nick，则性能会优化⾮常多(在oracle中，这种扫描技术为loose index scan，但在5.1的版本中，mysql中还不能直接⽀持这种优化技术)：

所以需要通过改写sql来达到伪loose index scan：

root@db 09:41:30>select count(*) from ( select distinct(nick) from user_access)t ;

| count(*) |

+———-+

| 806934 |

1 row in set (5.81 sec)

Sql中先选出不同的nick，最后在外⾯套⼀层，就可以得到nick的distinct值总和；

最重要的是在⼦查询中：select distinct(nick) 实现了上图中的伪loose index scan，优化器在这个时候的执⾏计划为Using index for group-by ，

需要注意的是mysql把distinct优化为group by，它⾸先利⽤索引来分组，然后扫描索引，对需要的nick只扫描⼀次；

两个sql的执⾏计划分别为：

优化写法：

root@db 09:41:10>explain select distinct(nick) from user_access-> ;

+—-+————-+——————————+——-+—————+————-| id | select_type | table | type | possible_keys | key |

key_len | ref | rows | Extra |

+—-+————-+——————————+——-+—————+————-

原始写法：

mysql删除重复的数据保留一条

root@db 09:42:55>explain select count(distinct nick) from user_access;

+—-+————-+——————————+——-+—————+————-

+—-+————-+——————————+——-+—————+————-

本⽂标题: 分析MySQL中优化distinct的技巧

688IT编程网

mysqldistinct慢_分析MySQL中优化distinct的技巧

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

mysqldistinct慢_分析MySQL中优化distinct的技巧

发表评论

推荐文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

非零金额正则表达式

半小时正则表达式