python分组统计数据_数据分组统计--688IT编程网

python分组统计数据_数据分组统计

统计分析数据的时候，经常需要进⾏分组统计。分组操作在python⾥的实现⽅式就是groupby语句。

惯例，咱们先造⼀个DataFrame表。

import pandas as pd

dic={

'class':['a','a','b','b'],

'id':[1,2,3,3],

'math':[88,66,55,22],

'physics':[99,77,33,67],

'science':[55,88,65,89]

}

df1=pd.DataFrame(data=dic,index=['student1','student2','student3','student4'])

1、单列分组

groupby语句可以单独形成⼀个分组对象。⽐如我们将数据表按照班级(class)进⾏分组，

后续想要进⾏任何的分组统计都可以使⽤这个分组对象。

Class_upby('class')

an()

结果为：

id math physics science

class

a 1.5 77.0 88.0 71.5

b 3.0 38.5 50.0 77.0

出现这个结果是因为我们在分组统计的时候没有指定列，所以python会将所有数值的列统计出平均值展⽰出来。当我们指定需要统计的列名之后，就会只展⽰我们需要的列。

Class_an()

结果为：

class

a 77.0

b 38.5

Name: math, dtype: float64

分组对象也可以省略，直接得到我们需要的分组统计值，如：upby('class').an()，得到的结果是⼀样的。

2、多列分组

分组变量可以是单列也可以是多列，多列的时候需要加上中括号。

结果为：

math physics science

class id

a 1 88.0 99.0 55.0

2 66.0 77.0 88.0

b 3 38.5 50.0 77.0

3、分组变量成为列名⽽不是index

使⽤默认的groupby语句统计时，分组变量是作为结果DataFrame的index出现的。想要把分组变量从index挪出来成为单独⼀列，需要使⽤as_index语句。

结果为：

class id math physics science

groupby是什么函数0 a 1.5 77.0 88.0 71.5

1 b 3.0 38.5 50.0 77.0

我们指定分组变量不成为index后，python会将它做为列⽽新建⼀个从0开始编号的index。

4、不同的列应⽤不同的统计函数

想要实现这种操作需要agg函数，在agg函数内对不同的列指定不同的统计⽅法。

结果为：

math physics science

class

a 77.0 176 88

b 38.5 100 89

通过agg的⽅法，我们实现了对math求平均，对physics求和，对science取最⼤的操作。细⼼的同学可能发现我们求平均的操作⽤的是np.mean(numpy的操作)，是因为agg并不⽀持直接的mean操作。

除了agg函数外，我们其实也可以⽤apply函数。只是应⽤apply函数时，是将分组对象内作为⼀个DataFrame来操作的。我们可以看看分组对象⾥⾯是什么。

for i in Class_group:

print(i)

结果为：

('a', class id math physics science

student1 a 1 88 99 55

student2 a 2 66 77 88)

('b', class id math physics science

student3 b 3 55 33 65

688IT编程网

python分组统计数据_数据分组统计

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python分组统计数据_数据分组统计

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式