agg函数的用法(一般与groupby函数连用)--688IT编程网

agg函数的⽤法（⼀般与groupby函数连⽤）groupby是什么函数

为了了解agg这个函数我们先以下数据集作为研究对象（截图的⼀部分）

agg：这⾥⼀般都与groupby函数作为⽐较

pandas引⼊了agg函数，它提供基于列的聚合操作。⽽groupby可以看做是基于⾏，或者说index的聚合操作

通过这⾥介绍我们可以交接 groupby函数是基于⾏操作的⽽agg是基于列操作的

这个说可能太抽象，什么是⾏操作什么是列操作呢

最简单的理解就是基于⾏操作我可以进⾏分类（⽐如⼀个班名单所有180以上的是⼀组 160-180是⼀组低于160是⼀组）如果实现这个过程我们是每⼀⾏每⼀⾏就⾏查，查看符合什么条件然后分组。这就是groupby函数最简单的理解⽽我们分好组以后想得到每⼀组的平均值咋办⼀般我们是着⽤操作的选择⼀个组之后把他们所有⾝⾼都加起来然后除以该组⼈数。那么问题来了不管是⾝⾼和还是平均值我们都是进⾏列操作的即我们是从上⾄下加起来的⽽不是从左到右。为了计算简便我们引⼊了agg函数。

import pandas as pd

import numpy as np

path_df_part_1 = r'C:\Users\yang\Desktop\ceshi.csv' #时间11.22-11.27的数据

path_df = open(path_df_part_1, 'r')

try:

df_part_1 = pd.read_csv(path_df, index_col = False, parse_dates = [0])

df_lumns = ['user_id','item_id','behavior_type','item_category']

finally:

path_df.close()

df_part_1['cumcount'] = df_upby(['user_id', 'behavior_type']).cumcount()#

df_part_1_u_b_count_in_6 = df_part_1.drop_duplicates(['user_id','behavior_type'], 'last')

#相当于保存的最⼤的那个计数的因为 0 1 2 3 4 5 6 这些计数前⾯都是重复的保留最后⼀个即可。drop_duplicate函数括号⾥⾯的完全重复才算重复项

#完全重复就代表 user_id 与 behavior_type 完全相同然后保留last最后u⼀个项

df_part_1_u_b_count_in_6 =

<_dummies(df_part_1_u_b_count_in_6['behavior_type']).join(df_part_1_u_b_count_in_6[['user_id','cumcount']])

#把1 2 3 4类型的进⾏热编码变成0001 0010 0100 1000类型

df_part_1_u_b_count_ame(columns = {1:'behavior_type_1',

2:'behavior_type_2',

3:'behavior_type_3',

4:'behavior_type_4'}, inplace=True)

#只是对热编码的columns重新命名便于以后取值因为分成了单独的列了print(df_part_1)

df_part_1_u_b_count_in_6['u_b1_count_in_6'] = df_part_1_u_b_count_in_6['behavior_type_1'] *

(df_part_1_u_b_count_in_6['cumcount']+1)#统计⽤户点击操作总数

df_part_1_u_b_count_in_6['u_b2_count_in_6'] = df_part_1_u_b_count_in_6['behavior_type_2'] *

(df_part_1_u_b_count_in_6['cumcount']+1)#统计⽤户收藏操作总数

df_part_1_u_b_count_in_6['u_b3_count_in_6'] = df_part_1_u_b_count_in_6['behavior_type_3'] *

(df_part_1_u_b_count_in_6['cumcount']+1)#统计⽤户购物车操作总数

df_part_1_u_b_count_in_6['u_b4_count_in_6'] = df_part_1_u_b_count_in_6['behavior_type_4'] *

(df_part_1_u_b_count_in_6['cumcount']+1)#统计⽤户购买操作总数

★print(df_part_1_u_b_count_in_6)

df_part_1_u_b_count_in_6 = df_part_1_u_b_count_upby('user_id').agg({'u_b1_count_in_6': np.sum,

'u_b2_count_in_6': np.sum,

'u_b3_count_in_6': np.sum,

'u_b4_count_in_6': np.sum})

★ print(df_part_1_u_b_count_in_6)

为了更容易看懂程序我们做了标记第⼀个五⾓星输出的是刚开始我们给的数据图

第⼆个五⾓星输出如下

688IT编程网

agg函数的用法(一般与groupby函数连用)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

agg函数的用法(一般与groupby函数连用)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式