R统计笔记(三):分组统计的⼏种⽅法
1. 使⽤tapply函数
# INDEX相当于groupBy
tapply(salarys$SALARY, INDEX=salarys$SEX, FUN=sum)
如果出现参数的长度不⼀致的错误,如下:
Error in tapply(salarys$SALARY, INDEX = salarys$SEX, FUN = max) :
参数的长度必需相同
groupby分组请仔细检查salarysSEX的长度是否相等,尤其是检查INDEX的类型,如果是list类型,请务必转换为向量:
# 对数据进⾏处理,返回LIST
salarys$SEX <- lapply(salarys$SEX, function(x) switch(x, FEMALE='⼥', MALE='男'))
# 返回向量
salarys$SEX <- c(salarys$SEX, recursive = TRUE)
2. 使⽤by函数
使⽤by函数可以达到同样的效果,唯⼀需要注意的是,引⽤的数据必须全是数据列,例如在本例中,数据最多也只能是salarys[c(‘SALARY’, ‘ID’)]。
by(salarys[c('SALARY')], INDICES = list(salarys$SEX), FUN=max)
3. 使⽤aggregate函数
aggregate(x=salarys[c('SALARY')], by = list(salarys$SEX, salarys$ID), FUN=max)
聚合函数与group by更相似,例如以上语句就表⽰按SEX、ID进⾏分组,结果如下:
Group.1Group.2 SALARY
1男130000
2男2200
3⼥31200
4⼥43500
从以上的数据可以看出,分组的唯⼀性由(SEX,ID)决定,所以跟SQL⼀模⼀样。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论