这篇⽂章主要介绍了upby()所见的各种⽤法详解,⽂中通过⽰例代码介绍的⾮常详细,对⼤家的学习或者⼯作具有⼀定的参考学习价值,需要的朋友们下⾯随着⼩编来⼀起学习学习吧
groupby的函数定义:
axis : 接收 0/1;⽤于表⽰沿⾏(0)或列(1)分割。
level : 接收int、级别名称或序列,默认为None;如果轴是⼀个多索引(层次化),则按⼀个或多个特定级别分组。
as_index:接收布尔值,默认Ture;Ture则返回以组标签为索引的对象,False则不以组标签为索引。
其他的参数解释就看⽂档吧:
pandas.set_option('display.float_format', lambda x: '%.2f' % x) # 禁⽤科学计数法
所见 1 :⽇常⽤法
import pandas as pd
df = pd.DataFrame({'Gender' : ['男', '⼥', '男', '男', '男', '男', '⼥', '⼥', '⼥'],
'name' : ['周杰伦', '蔡依林', '林俊杰', '周杰伦', '林俊杰', '周杰伦', '⽥馥甄', '蔡依林', '⽥馥甄'],
'income' : [4.5, 2.9, 3.8, 3.7, 4.0, 4.1, 1.9, 4.1, 3.2],
'expenditure' : [1.5, 1.9, 2.8, 1.7, 4.1, 2.5, 1.1, 3.4, 1.2]
})
groupby是什么函数#根据其中⼀列分组
df_expenditure_mean = df.groupby(['Gender']).mean()
#根据其中两列分组
df_expenditure_mean = df.groupby(['Gender', 'name']).mean()
#只对其中⼀列求均值
df_expenditure_mean = df.groupby(['Gender', 'name'])['income'].mean()
View Code
输出⽰例:
所见 2 :解决groupby.sum() 后层级索引levels上移的问题
上图中的输出⼆,虽然是 DataFrame 的格式,但是若需要与其他表匹配的时候,这个格式就有些⿇烦了。匹配数据时,我们需要的数据格式是:列名都在第⼀⾏,数据⾏中也不能有 Gender 列这样的合并单元格。因此,我们需要做⼀些调整,将 as_index 改为 False ,默认
是 Ture 。
#不以组标签为索引,通过 as_index 来实现
df_expenditure_mean = df.groupby(['Gender', 'name'], as_index=False).mean()
输出:
所见 3 :解决groupby.apply() 后层级索引levels上移的问题
在所见 2 中我们知道,使⽤参数 as_index 就可使 groupby 的结果不以组标签为索引,但是后来在使⽤ groupby.apply() 时发现,as_index 参数失去了效果。如下例所⽰:
# 使⽤了 as_index=False,但是从输出结果中可见没起到作⽤
df_apply = df.groupby(['Gender', 'name'], as_index=False).apply(lambda x: sum(x['income']-x['expenditure'])/sum(x['income']))
df_apply = pd.DataFrame(df_apply,columns=['存钱占⽐'])#转化成dataframe格式
输出:
解决办法:加⼀句df_apply_index = set_index()
# 加⼀句df_apply_index = set_index()
df_apply = df.groupby(['Gender', 'name'], as_index=False).apply(lambda x: sum(x['income']-x['expenditure'])/sum(x['income']))
df_apply = pd.DataFrame(df_apply,columns=['存钱占⽐'])#转化成dataframe格式
df_apply_index = set_index()
输出:
所见 4 :groupby函数的分组结果保存成DataFrame
所见 1 中的输出三,明显是 Series ,我们需要将其转化为 DataFrame 格式的数据。#只对其中⼀列求均值,并转化为 DataFrame
df_expenditure_mean = df.groupby(['Gender', 'name'], as_index=False)['income'].mean()
df_expenditure_mean = pd.DataFrame(df_expenditure_mean)#转化成dataframe格式
df_ame(columns={'income':'收⼊均值'}, inplace = True)
输出:
到此这篇关于 upby() 所见的各种⽤法详解的⽂章就介绍到这了!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论