r语言psych包_R语言Tidyverse包入门介绍--688IT编程网

r语⾔psych包_R语⾔Tidyverse包⼊门介绍R语⾔

语⾔学与R语⾔的碰撞

Xu & Yang

PhoneticSan

学习参考

Discovering Statistics Using R

Statistics for Linguistics with R

How to Do Linguistics with R

R in Action

Analyzing Linguistic Data

R Graphics Cookbook

mybaits原理··· ···

R: The R Project for Statistical Computing

RStudio:

在语⾔学本科专业逐渐兴起的时代，R已经逐渐成为语⾔学学⽣所需掌握的必备技能之⼀。事到如今，

依旧有“数据处理，Python和R到底学哪个”的争辩。今天，我们讲⼀个“让R能够和Python在数据处理⽅⾯⼀较⾼下”的扩展包：tidyverse包。本期将介绍以下函数运算：

%>%, tibble, as_tibble, read_csv, read_delim, filter, select, mutate, group_by, summarise, gather, spread

zl联轴器数据处理流程 (R for Data Science, pp. ix)

迄今为⽌，我们的R语⾔⼊门级讲解，都会对已有的数据进⾏预处理，得出漂亮的可视化结果。这些处理都是在base R上得到的，你可以理解为R内置的⾃带函数，⽐如plot、data.frame等函数。然⽽，

这些函数在进⾏⼤量数据处理的时候，不仅处理繁琐，⽽且语句会显得冗长，可读性较差，降低了数据处理的效率。以此为契机，统计学家Hadley Wickham开发出了⼀系列数据处理的包，整合成为⼀个，这就是tidyverse包，它⾥⾯包括了与数据处理相关的内容，如ggplot2，dplyr，tidyr，tibble等等。你可以直接调⽤tidyverse，也可以调⽤它所辖属的包。下⾯，我们讲解⼀些tidyverse中可能使⽤到的函数，帮助你快速上⼿这个⽅便的东西。同时，我们会⽐较tidyverse和base R 之间的不同之处，帮助你更快理解，为什么tidyverse受到更多的推崇。

数据导⼊：tibble

postprocessor如果已经学过R的⼀些基础教程，或者你读过R in Action这本教材，就会发现，导⼊到R的语⾔学数据，都会成为⼀个data.frame结构的数据，因为它往往包含多个变量。然⽽，这种导⼊往往会莫名地更改⼀些数据的原本格式。有时我们更需要原来的格式，该如何设

置？tidyverse下的tibble包帮助我们实现了这⼀想法。如果你直接调⽤了tidyverse，那么不需要额外再调⽤tibble。

tidyverse包的内容

tibble是升级版的data.frame格式，它可以保持数据原本的格式，此外，它不会再把放不下的数据多⾏多列显⽰，⽽是以总结形式显⽰够你的屏幕即可。以languageR包中beginningReaders的数据为例，⼀共有13列数据，如果是base R，直接调⽤会发现，到第9列时已经占不下，它会⾃动换下⼀⾏继续显⽰，显得⼗分冗长。如果转换为tibble格式，它会最多显⽰8列，剩余的内容以解读的形式展现，在每个标头下会显⽰该列数据格式，如int表⽰整数型数据，fct表⽰factor。tibble使得该数据的格式和结构⼀⽬了然。

tibble格式下的数据显⽰

除了创建tibble，以及将已有的格式转变为tibble外，在导⼊时，我们也可以将数据直接以tibble格式导⼊。在之前base R中，我们使⽤的函数为read.table等，相应的，tidyverse包中也有相关函数，且运⾏速度要⽐base R中的快。以csv格式为例，使⽤read_csv即可，内部结构与base R的函数⼀致。更⼀般的，如果读取制表分隔符的⽂本数据，使⽤read_delim函数，记得添加⼀句delim='\t'即可。

使⽤read_delim导⼊制表分隔符⽂本数据

下⾯我们将tibble包中主要使⽤的函数总结，你可以根据相关代码进⾏体验：

library(languageR)# 加载tidyverselibrary(tidyverse)# 创建tibble格式数据a b my_tibble # 将已有数据转变为tibble格式BegReaders # 导⼊数据时直接以tibble格式导⼊数据整理：dplyr/tidyr

tidyverse所包含的dplyr包中，囊括了众多数据处理的函数，包括filter、select、mutate、summarise等。在tidyr包中，则有重要的

gather/spread函数帮助我们转换长/宽数据格式。下⾯我们对这些函数的使⽤逐⼀讲解。

⾸先介绍filter函数。正如名字所讲，它所实现的功能是根据条件筛选出符合条件的数据。以languageR中verbs数据为例，假设想选出LengthOfTheme⼤于2的所有数据，并绘制出点状图，那么代码如下：

verbs_f <- filter(verbs, LengthOfTheme > 2)ggplot(verbs_f, aes(RealizationOfRec, LengthOfTheme, color=AnimacyOfRec)) + geom_point()

也可以针对字符串进⾏筛选，如筛选出AnimacyOfRec下属于animate的数据，那么应写为：

filter(verbs, AnimacyOfRec == 'animate')

不过从上⾯的代码可以看到，这样写内容确实还是冗长的，⽽且verbs数据是在重复使⽤，并没有体验到与base R有差别的地⽅。下⾯，我

们介绍tidyverse中最重要的函数之⼀：管道运算%>%，是它将代码变得简洁易懂。通俗解释，将运算符左侧的内容应⽤到右边的内容去。

如上⾯verbs的处理，我们可以这样使⽤：

verbs %>% as_tibble() %>% filter(LengthOfTheme > 2) %>% ggplot(aes(RealizationOfRec, LengthOfTheme, color=AnimacyOfRec)) + geom_point()

⽤语⾔解释⼀下即：将verbs数据应⽤到as_tibble中转换为tibble格式，然后筛选转变后的数据，最后将筛选出来的数据绘图。%>%的存在

让整个代码显得简洁⾼效，可读性也⼤⼤提⾼。

第⼆个select函数可以选择特定的⼀列或多列数据。与filter不同，filter可以筛选出⾏的数据，⽽select则是筛选出列的数据。以verbs为

python入门教程非常详细word例，具体代码和运⾏效果如下：

# 筛选出⼀列select(verbs, Verb)# 筛选出多列select(verbs, Verb, LengthOfTheme)select(verbs, Verb:LengthOfTheme)# 筛选出除特定列外的其他列select(verbs, -V

如果想要改变tibble中的数据，或者增加变量，那么你可以使⽤mutate函数，它的主要功⽤是增加⼀列新的数据变量，并与已有数据对应起

来。以beginningReaders数据为例，上⾯我们已经转换为tibble格式了，存到了BegReaders变量中。我想筛选出log相关数据并添加⼀列SumOfLog数据，该数据是将两列Log相加得到，那么我可以这样操作：

BegReaders %>% filter(LogRT:LogFrequency) %>% mutate(SumOfLog = LogRT:LogFrequency)

js如何遍历数组学c语言能干嘛运⾏后就可以看到，我们的数据增加了新的⼀列，名为SumOfLog，数据是由LogRT和LogFrequency相加得来的。⾃然，你也可以添加

⼀个新的字符串的列，记得使⽤引号将字符引⽤起来即可。

688IT编程网

r语言psych包_R语言Tidyverse包入门介绍

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

r语言psych包_R语言Tidyverse包入门介绍

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式