count(distinct)与groupby浅析--688IT编程网

count（distinct）与groupby浅析

x在传统关系型数据库中，group by与count(distinct)都是很常见的操作。count(distinct colA)就是将colA中所有出现过的不同值取出来，相信只要接触过数据库的同学都能明⽩什么意思。

distinct查询

count(distinct colA)的操作也可以⽤group by的⽅式完成，具体代码如下：

select count(distinct colA) from table1;

select count(1) from (select colA from table1 group by colA) alias_1;

这两者最后得出的结果是⼀致的，但是具体的实现⽅式，有什么不同呢？

上⾯两种⽅式本质就是时间与空间的权衡。

distinct需要将colA中的所有内容都加载到内存中，⼤致可以理解为⼀个hash结构，key⾃然就是colA的所有值。因为是hash结构，那运算速度⾃然就快。最后计算hash中有多少key就是最终的结果。

那么问题来了，在现在的海量数据环境下，需要将所有不同的值都存起来，这个内存消耗，是可想⽽知的。所以如果数据量特别⼤，可能会out of memory。。。

group by的实现⽅式是先将colA排序。排序⼤家都不陌⽣，拿最见得快排来说，时间复杂度为

,⽽空间复杂度只有

。这样⼀来，即使数据量再⼤⼀些，group by基本也能hold住。但是因为需要做⼀次

的排序，时间⾃然会稍微慢点。。。

总结起来就是，count(distinct)吃内存，查询快；group by空间复杂度⼩，在时间复杂度允许的情况下，可以发挥他的空间复杂度优势。

发表评论

688IT编程网

count(distinct)与groupby浅析

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

count(distinct)与groupby浅析

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式