python分组统计数据_【Python数据分析】groupby分组统计--688IT编程网

python分组统计数据_【Python数据分析】groupby分组统计1.简介

(1)根据某些条件将数据拆分成组

(2)对每个组独⽴应⽤函数

(3)将结果合并到⼀个数据结构中

Dataframe在⾏(axis=0)或列(axis=1)上进⾏分组，将⼀个函数应⽤到各个分组并产⽣⼀个新值，然后函数执⾏结果被合并到最终的结果对象中。

2.实战演练

2.1 简单分组统计并聚合

import pandas as pd

import numpy as np

df = pd.DataFrame({'科⽬' : ['语⽂', '语⽂', '语⽂', '数学','数学'],

'姓名' : ['Jack', 'Lucy', 'Alice', 'Mark', 'Jhon'],

'性别' : ['man', 'woman', 'woman', 'man', 'man'],

'成绩' : [85, 90, 70, 60, 100]})

print(df)

print('------')

upby('科⽬'), upby('科⽬')))

print('------')

# 直接分组得到⼀个groupby对象，是⼀个中间数据，没有进⾏计算

a = df.groupby('科⽬').mean()

b = df.groupby(['科⽬','性别']).mean()

c = df.groupby(['科⽬'])['成绩'].mean() # 以A分组，算D的平均值

print(a,type(a),'\n',a.columns)

print(b,type(b),'\n',b.columns)

print(c,type(c))

# 通过分组后的计算，得到⼀个新的dataframe

# 默认axis = 0，以⾏来分组

# 可单个或多个([])列分组

2.2 分组-可迭代对象

import pandas as pd

import numpy as np

# 分组 - 可迭代对象

df = pd.DataFrame({'X' : ['A', 'B', 'A', 'B'], 'Y' : [1, 4, 3, 2]})

print(df)

upby('X'), upby('X')))

print('-----')

print('--------直接⽣成list或者元组---------------')

groupby分组print(upby('X')), '→ 可迭代对象，直接⽣成list\n')

print(upby('X'))[0], '→ 以元祖形式显⽰\n')

for n,g upby('X'):

print(n)

print(g)

print('###')

# n是组名，g是分组后的Dataframe

print('--------提取分组后的组-----------')

upby(['X']).get_group('A'),'\n')

upby(['X']).get_group('B'),'\n')

print('-----')

# .get_group()提取分组后的组

print('--------分组后的元素转化为dict-----------')

grouped = df.groupby(['X'])

ups)

ups['A']) # 也可写：df.groupby('X').groups['A'] # .groups：将分组后的groups转为dict

# 可以字典索引⽅法来查看groups⾥的元素

print('---------查看分组后的长度-----------')

sz = grouped.size()

print(sz,type(sz))

# .size()：查看分组后的长度

print('---------按照两列进⾏分组-----------')

df = pd.DataFrame({'科⽬' : ['语⽂', '语⽂', '语⽂', '数学','数学'],

'姓名' : ['Jack', 'Lucy', 'Alice', 'Mark', 'Jhon'],

'性别' : ['man', 'woman', 'woman', 'man', 'man'],

'成绩' : [85, 90, 70, 60, 100]})

grouped = df.groupby(['科⽬','性别']).groups

print(df)

print(grouped)

print('------------------')

print(grouped[('数学', 'man')])

# 按照两个列进⾏分组

2.3 其他轴上的分组

import pandas as pd

import numpy as np

# 其他轴上的分组

df = pd.DataFrame({'data1':np.random.rand(2),

'data2':np.random.rand(2),

'key1':['a','b'],

'key2':['one','two']})

print(df)

print(df.dtypes)

print('-----')

for n,p upby(df.dtypes, axis=1):

print(n)

print(p)

print('##')

# 按照值类型分列

2.4 通过字典或者Series分组

import pandas as pd

import numpy as np

# 通过字典或者Series分组

df = pd.DataFrame(np.arange(16).reshape(4,4),

columns = ['a','b','c','d'])

print(df)

print('-----')

mapping = {'a':'one','b':'one','c':'two','d':'two','e':'three'}

by_column = df.groupby(mapping, axis = 1)

print(by_column.sum())

print('-----')

# mapping中，a、b列对应的为one，c、d列对应的为two，以字典来分组s = pd.Series(mapping)

print(s,'\n')

upby(s).count())

# s中，index中a、b对应的为one，c、d对应的为two，以Series来分组

2.5 通过函数分组

# 通过函数分组

import pandas as pd

import numpy as np

df = pd.DataFrame(np.arange(16).reshape(4,4),

columns = ['a','b','c','d'],

index = ['abc','bcd','aa','b'])

print(df,'\n')

upby(len).sum())

# 按照字母长度分组

2.6 分组函数计算⽅法

import pandas as pd

import numpy as np

s = pd.Series([1, 2, 3, 10, 20, 30], index = [1, 2, 3, 1, 2, 3])

grouped = s.groupby(level=0) # 唯⼀索引⽤.groupby(level=0)，将同⼀个index的分为⼀组print(grouped)

print(grouped.first(),'→ first：⾮NaN的第⼀个值\n')

print(grouped.last(),'→ last：⾮NaN的最后⼀个值\n')

print(grouped.sum(),'→ sum：⾮NaN的和\n')

an(),'→ mean：⾮NaN的平均值\n')

dian(),'→ median：⾮NaN的算术中位数\n')

unt(),'→ count：⾮NaN的值\n')

print(grouped.min(),'→ min、max：⾮NaN的最⼩值、最⼤值\n')

print(grouped.std(),'→ std，var：⾮NaN的标准差和⽅差\n')

print(grouped.prod(),'→ prod：⾮NaN的积\n')

2.7 多函数计算:agg()

import pandas as pd

import numpy as np

df = pd.DataFrame({'a':[1,1,2,2],

'b':np.random.rand(4),

'c':np.random.rand(4),

'd':np.random.rand(4),})

print(df)

upby('a').agg(['mean',np.sum]))

upby('a')['b'].agg({'result1':np.mean,

'result2':np.sum}))

# 函数写法可以⽤str，或者np.⽅法

# 可以通过list，dict传⼊，当⽤dict时，key名为columns

688IT编程网

python分组统计数据_【Python数据分析】groupby分组统计

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

python分组统计数据_【Python数据分析】groupby分组统计

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行