R语言中的group_by()和summarise()--688IT编程网

R语⾔中的group_by（）和summarise（）

group_by()：定义分组变量，summarise()：汇总总结

dplyr分两步完成汇总

1.⽤group_by定义分组变量

2.⽤⼀⾏summarise代码描述如何对每组汇总。

3.1group_by这个函数只是定义分组变量，并没有改变数据的结构。

3.2summarise()：汇总总结，和⼀些函数协作。

计数：n()、n_distinct(x)

中间值：mean(x)、median(x)

离散程度sd()、mad(x)、IQR(x)

极端值quartile(x)、min(x)、max(x)

位置first()、last()、nth()

例如要想看不同净度的钻⽯的平均价格可以通过下⾯的代码实现。

library(ggplot2) #diamonds数据集在这个包⾥⾯

library(dplyr) #两个函数在这⾥⾯

by_clarity <- group_by(diamonds,clarity)#对diamonds按照clarity定义分组（并没有实际分组）

sum_clarity <- summarise(by_clarity,price=mean(price))

sum_clarity

ggplot(sum_clarity,aes(clarity,price))+

groupby是什么函数geom_line(aes(group=1),colour="grey80")+geom_point(size=2)

这个图中净度更⾼时价格却低了。在后⾯会解决。

下⾯我们对刚才的分净度平均价格做⼀个补充：增加每组的计数和上下四分位点。这显⽰出均值对这个数据的汇总效果并不好，因为价格的分布是偏态的：在某些组内，均值甚⾄⽐上四分位数还⾼。

by_clarity <- diamonds%>%

group_by(clarity)%>%

summarise(

n=n(),mean=mean(price),lq=quantile(price,0.25),up=quantile(price,0.75)

)

by_clarity

ggplot(by_clarity,aes(clarity,mean))+

geom_linerange(aes(ymin=lq,ymax=up))+

geom_line(aes(group=),colour="grey50")+

geom_point(aes(size=n))

我们也可以多个变量分组。

接下来的例⼦就是展⽰计算⼀个展现切⼯和深度关系的频率多边形。

cut_depth <- summarise(group_by(diamonds,cut,depth),n=n())

cut_depth <- filter(cut_depth,depth>55,depth < 70)

cut_depth

ggplot(cut_depth,aes(depth,n,colour=cut))+geom_line()

# 我们可以将计数转换为⽐例，这样更⽅便在各个切⼯中⽐较

cut_depth <- mutate(cut_depth,prop=n/sum(n))

ggplot(cut_depth,aes(depth,prop,colour=cut))+geom_line()

688IT编程网

R语言中的group_by()和summarise()

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

R语言中的group_by()和summarise()

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式