R中的sub替换函数【转】--688IT编程网

R中的sub替换函数【转】

R中的grep、grepl、sub、gsub、regexpr、gregexpr等函数都使⽤正则表达式的规则进⾏匹配。默认是egrep的规则，也可以选⽤Perl语⾔的规则。在这⾥，我们以R中的sub函数为例（因为该函数可以返回替换字符串后的具体内容）介绍正则表达式的⽤法。

对该函数的逻辑参数都使⽤默认值（ignore.case = FALSE，表⽰⼤⼩写敏感；extended = TRUE，表⽰使⽤egrep规则；perl = FALSE，表⽰不使⽤Perl规则；fixed = FALSE，表⽰不使⽤精确匹配；useBytes = FALSE，表⽰按字符匹配）。另外三个中，pattern为字符串表⽰正则表达式，replacement也是字符串表⽰替换的内容，x为字符型向量表⽰被替换的字符向量。该函数会根据pattern的规则对x中各元素进⾏搜索，遇到符合条件的第⼀个⼦字符串的位置（gsub是替换所有符合条件的），⽤replacement替换该⼦字符串，返回替换后的结果，和x的结构相同。为了清晰地介绍例⼦，我们对replacement统⼀赋值为“”，相当于去掉搜寻出来的⼦字符串。例如

sub("a","",c("abcd","dcba"))，将向量中的两个字符串中的a都去掉了，返回[1] "bcd" "dcb"。该例中的"a"只是⼀个字符，并不是正则表达式，真正的正则表达式依靠元字符进⾏灵活的匹配。

“^”匹配⼀个字符串的开始，⽐如sub("^a","",c("abcd","dcba"))，表⽰将开头为a的字符串中的a替换成空，在返回值中可以发现后⾯出现的a并没有被替换。如果要将开头的⼀个字符串替换，简单地写成“^ab”就⾏。正则匹配除了字符串外的任何符号

“$”匹配⼀个字符串的结尾，⽐如sub("a$","",c("abcd","dcba"))表⽰将以a结尾的字符串中的a替换成空。"."表⽰除了换⾏符以外的任⼀字符，⽐如sub("a.c","",c("abcd","sdacd"))。“*”表⽰将其前的字符进⾏0个或多个的匹配，⽐如sub("a*b","",c("aabcd","dcaaaba"))。类似

地，“?”匹配0或1个正好在它之前的那个字符，“+”匹配1或多个正好在它之前的那个字符。“.*”可以匹配任意字符，⽐如

sub("a.*e","",c("abcde","edcba"))。

“|”表⽰逻辑的或，⽐如sub("ab|ba","",c("abcd","dcba"))，可以替换ab或者ba。“^”还可以表⽰逻辑的补集，需要写在“[]”中，⽐如sub(" [^ab]","",c("abcd","dcba"))，由于sub只替换搜寻到的第⼀个，因此这个例⼦中⽤gsub效果更好。

“[]”还可以⽤来匹配多个字符，如果不使⽤任何分隔符号，则搜寻这个集合，⽐如在sub("[ab]","",c("abcd","dcba"))中，和"a|b"效果⼀样。“[-]”的形式可以匹配⼀个范围，⽐如sub("[a-c]","",c("abcde","edcba"))匹配从a到c的字符，sub("[1-9]","",c("ab001","001ab"))匹配从1到9的数字。

以上是最基础的正则表达式元字符，在⼀些正则表达式的书籍和资料中有⾮常详细的介绍。最后需要提⼀下的是“贪婪”和“懒惰”的匹配规则。默认情况下是匹配尽可能多的字符，是为贪婪匹配，⽐如sub("a.*b","",c("aabab","eabbe"))，默认匹配最长的a开头b结尾的字串，也就是整个字符串。如果要进⾏懒惰匹配，也就是匹配最短的字串，只需要在后⾯加个“?”，⽐如sub("a.*?b","",c("aabab","eabbe"))，就会匹配最开始到的最短的a开头b结尾的字串。

688IT编程网

R中的sub替换函数【转】

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

R中的sub替换函数【转】

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式