Pandas中实现聚合统计方法--688IT编程网

groupby是什么函数本文以Pandas中实现分组计数这个最基础的聚合统计功能为例，分享多种实现方案。

这里首先给出模拟数据集，不妨给定包括如下两列的一个dataframe，需求是统计各国将领的人数。应该讲这是一个很基础的需求，旨在通过这一需求梳理pandas中分组聚合的几种通用方式。

value_counts上述需求是统计各国将领的人数，换言之就是在上述数据集中统计各个国家出现的次数。所以实现这一目的只需简单的对国家字段进行计数统计即可：

当然，以上实现其实仅适用于计数统计这种特定需求，对于其他的聚合统计是不能满足的。

groupby+count第一种实现算是走了取巧的方式，对于更为通用的聚合统计其实是不具有泛化性的，那么pandas中标准的聚合是什么样的呢?对于上述仅有

一种聚合函数的例子，在pandas中更倾向于使用groupby直接+聚合函数，例如上述的分组计数需求，其实就是groupby+count实现。

进一步的，其具体实现形式有两种：

1、分组后对指定列聚合，在这种形式中依据country分组后只提取name一列，相当于每个country下对应了一个由多个name组成的series，而后的count即为对这个series进行count。

2、分组后直接聚合，然后再提取指定列。此时，依据country分组后不限定特定列，而是直接加聚合函数count，此时相当于对列都进行count，此时得到的仍然是一个dataframe，而后再从这个dataframe中提取对特定列的计数结果。

值得指出，在此例中country以外的其他列实际上也是只有name一列，但与第一种形式其实也是不同的，具体在于未加提取name列之前，虽然也是只有name一列，但却还是一个dataframe：

groupby+agg上述方法是直接使用groupby+相应的聚合函数，这种聚合统计方法简单易懂，但缺点就是仅能实现单一的聚合需求，对于有多种聚合函数的情况是不适用的。此时，功能更为强大的agg函数随之登场。agg是aggregation 的缩写，可见其是专门用于聚合统计的，其可以接收多种不同的聚合函数，因而更具可定制性。

agg函数主要接收两个参数，第一个参数func用于接收聚合算子，可以是一个函数名或对象，也可以是一个函数列表，还可以是一个字典，使用方法很是灵活；第二参数axis则是指定聚合所沿着的轴向，默认是axis=0，即沿着行的方向对列聚合。agg的函数文档如下：

这里，仍然以上述分组计数为例，讲解groupby+agg的三种典型应用方式：

1、agg内接收聚合函数或聚合函数列表。具体实现形式也分为两种，与前面groupby直接+聚合函数的用法类似。实际上，该种用法其实与groupby直接+聚合函数极为类似。

2、agg内接收聚合函数字典，其中key为列名，value为聚合函数或函数列表，可实现同时对多个不同列实现不同聚合统计。这里字典的key是要聚合的name 字段，字典的value即为要用的聚合函数count，当然也可以是包含count的列表的形式。用字典传入聚合函数的形式下，统计结果都是一个dat

aframe，更进一步的说当传入字典的value是聚合函数列表时，结果中dataframe的列名是一个二级列名。

3、agg内接收新列名+元组，实现对指定列聚合并重命名。对于聚合函数不是特别复杂而又希望能同

时完成聚合列的重命名时，可以选用此种方式，具体传参形式实际上采用了python中可变字典参数**kwargs的用法，其中字典参数中的key是新列名，value是一个元组的形式，包括聚合字段列名和聚合函数。

groupby+apply如果说上述实现方式都还是pandas里中规中矩的聚合统计，那么这一种方式则是不是该算是一种骚操作?实际上，这是应用了pandas中apply的强大功能，具体可参考历史推文Pandas中的这3个函数，没想到竟成了我数据处理的主力。

由于apply支持了多种重载方法，所以对于分组后的grouped dataframe应用apply，也可实现特定的聚合函数统计功能。首先看如下实际应用：

688IT编程网

Pandas中实现聚合统计方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

Pandas中实现聚合统计方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式