groupby函数详解--688IT编程网

groupby函数详解

⼀、分组原理

核⼼：

1、不论分组键是数组、列表、字典、Series、函数，只要其与待分组变量的轴长度⼀致都可以传⼊groupby进⾏分组。

2、默认axis=0按⾏分组，可指定axis=1对列分组。

groupby()语法格式

groupby就是按XX分组，⽐如将⼀个数据集按A进⾏分组，效果如下

使⽤groupby实现功能

import numpy as np

import pandas as pd

data = pd.DataFrame({

'name': ['Tom', 'Kaggle', 'Litter', 'Sam', 'Sam', 'Sam'],

'race': ['B', 'C', 'D', 'E', 'B', 'C'],

'age': [37.0, 61.0, 56.0, 87.0, 58.0, 34.0],

'signs_of_mental_illness': [True, True, False, False, False, False]

})

返回结果如上得到⼀个叫DataFrameGroupBy的东西,pandas不能直接显⽰出来可以调⽤list显⽰出来

groupby()的配合函数

函数适⽤场景备注

.mean()均值

.count()计数

.min()最⼩值

.mean().unstack()求均值，聚合表的层次索引不堆叠

.size()计算分组⼤⼩GroupBy的size⽅法，将返回⼀个含有分组⼤⼩的Series

.apply()

.agg()

这⾥演⽰.mean()和.count()

# mean()

也可以根据单键多列进⾏聚合

# 单键多列聚合

.agg操作可以取多个函数进⾏选择有时候我们既需要平均值，有需要计数(也可是取⼀个) agg为列表

upby('name')['age'].agg(['mean']))

upby('name')['age'].agg(['mean','count']))

也可以传⼊字典，对组内不同列采取不同的操作

upby('race').agg({'age': np.median, 'signs_of_mental_illness': np.mean}))

.apply()

可以使⽤我们⾃⼰所创建的函数

print('apply之前')

grouped = upby('name')

for name, group in grouped:

print(name)

print(group)

print('\n')

print('apply之后')

upby('name').apply(lambda x: x.head(2)))

groupby是什么函数

简单操作基本介绍完成

有时候需要将聚合的另⼀列放到⼀起并且取消键的重复值这个时候可以这样做

上⾯是构建的数据，需要对订购时间进⾏处理，这⾥我们是将⽉份+天数/30，然后对ID列进⾏去重，并将后⾯Time列计算的结果放到⼀起

import numpy as np

import pandas as pd

data = pd.read_excel('订购时间预测2.xlsx') def cut_m_d(x):

return h + x.day / 30, 2)

data['m_d'] = data['Time'].apply(cut_m_d) grouped = upby('ID')

# 这⼀步是去重(ID)，不去重会出现错误result = grouped['m_d'].unique()

result2 = set_index()

print(result2)

后续将进⾏更复杂操作的更新

688IT编程网

groupby函数详解

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

groupby函数详解

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式