Pythongroupby、grouper、resample函数使⽤进阶
背景:
DataFrame由2个类别列id、type,2个数字列value1、value2和⼀个⽇期时间索引time组成
⼀、groupby & groupby多次groupby
⽬标:多品种、多时间点的数值,按品种、类型排序,取最近30个周期对多个特征值求和
思路:
1、现对时间升序排序,最后即最新数值(倒序排序也可以,⽤head())
2、按分组取出最新值
groupby是什么函数
3、按分组对value1、value2求和
df = df.sort_values('time', ascending=True)# 升序排列,tail即最新值
sum_df = df.groupby(['id','type']).tail(30).groupby(['id','type']).agg({
'value1':'sum',
'value2':'sum',
})
⼆、groupby & Grouper
⽬标:按id、type、time分类,且time需要修改时间颗粒度,分类后重新聚合
思路:
1、对id、type使⽤groupby分组后,使⽤resample重新采样,发现time的部分时间会丢失
2、分组还有TimeGrouper、Grouper函数
pd.TimeGrouper只能按DatetimeIndex进⾏分组,pd.Grouper可以按⽇期时间列进⾏分组,本例按⽇期分组,使⽤Grouper class pandas.Grouper ( key = None,level = None,freq = None,axis = 0,sort = False )
# grouper只要求time列是时间
df['time']= pd.to_datetime(df['time'])
df = df.groupby(['id','value1', pd.Grouper(freq='D', key='time')]).agg({
'value1':'sum',
'value2':'sum',
})
三、groupby & resample 分组后重采样
按照列id分组,
按照列time按天重采样,求和
# resample要求time列为时间格式且为index
df = df .set__datetime(df ['time']))
df.set__datetime(df['time'])).groupby('id').resample('D').agg({
'value1':'sum',
'value2':'sum',
})
import pandas as pd
df = pd.DataFrame(data={'data1':['1','2'],'data2':[a,b]})
print(df)
upby('books', as_index=True).sum())
upby('books', as_index=False).sum())
data1 data2
0 1 a
1 2 b
data2
data1
0 1 a
1 2 b
data1 data2
0 1 a
1 2 b

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。