R中的sub替换函数【转】
R中的grep、grepl、sub、gsub、regexpr、gregexpr等函数都使⽤正则表达式的规则进⾏匹配。默认是egrep的规则,也可以选⽤Perl语⾔的规则。在这⾥,我们以R中的sub函数为例(因为该函数可以返回替换字符串后的具体内容)介绍正则表达式的⽤法。
对该函数的逻辑参数都使⽤默认值(ignore.case = FALSE,表⽰⼤⼩写敏感;extended = TRUE,表⽰使⽤egrep规则;perl = FALSE,表⽰不使⽤Perl规则;fixed = FALSE,表⽰不使⽤精确匹配;useBytes = FALSE,表⽰按字符匹配)。另外三个中,pattern为字符串表⽰正则表达式,replacement也是字符串表⽰替换的内容,x为字符型向量表⽰被替换的字符向量。该函数会根据pattern的规则对x中各元素进⾏搜索,遇到符合条件的第⼀个⼦字符串的位置(gsub是替换所有符合条件的),⽤replacement替换该⼦字符串,返回替换后的结果,和x的结构相同。为了清晰地介绍例⼦,我们对replacement统⼀赋值为“”,相当于去掉搜寻出来的⼦字符串。例如
sub("a","",c("abcd","dcba")),将向量中的两个字符串中的a都去掉了,返回[1] "bcd" "dcb"。该例中的"a"只是⼀个字符,并不是正则表达式,真正的正则表达式依靠元字符进⾏灵活的匹配。
“^”匹配⼀个字符串的开始,⽐如sub("^a","",c("abcd","dcba")),表⽰将开头为a的字符串中的a替换成空,在返回值中可以发现后⾯出现的a并没有被替换。如果要将开头的⼀个字符串替换,简单地写成“^ab”就⾏。正则匹配除了字符串外的任何符号
“$”匹配⼀个字符串的结尾,⽐如sub("a$","",c("abcd","dcba"))表⽰将以a结尾的字符串中的a替换成空。"."表⽰除了换⾏符以外的任⼀字符,⽐如sub("a.c","",c("abcd","sdacd"))。“*”表⽰将其前的字符进⾏0个或多个的匹配,⽐如sub("a*b","",c("aabcd","dcaaaba"))。类似
地,“?”匹配0或1个正好在它之前的那个字符,“+”匹配1或多个正好在它之前的那个字符。“.*”可以匹配任意字符,⽐如
sub("a.*e","",c("abcde","edcba"))。
“|”表⽰逻辑的或,⽐如sub("ab|ba","",c("abcd","dcba")),可以替换ab或者ba。“^”还可以表⽰逻辑的补集,需要写在“[]”中,⽐如sub(" [^ab]","",c("abcd","dcba")),由于sub只替换搜寻到的第⼀个,因此这个例⼦中⽤gsub效果更好。
“[]”还可以⽤来匹配多个字符,如果不使⽤任何分隔符号,则搜寻这个集合,⽐如在sub("[ab]","",c("abcd","dcba"))中,和"a|b"效果⼀样。“[-]”的形式可以匹配⼀个范围,⽐如sub("[a-c]","",c("abcde","edcba"))匹配从a到c的字符,sub("[1-9]","",c("ab001","001ab"))匹配从1到9的数字。
以上是最基础的正则表达式元字符,在⼀些正则表达式的书籍和资料中有⾮常详细的介绍。最后需要提⼀下的是“贪婪”和“懒惰”的匹配规则。默认情况下是匹配尽可能多的字符,是为贪婪匹配,⽐如sub("a.*b","",c("aabab","eabbe")),默认匹配最长的a开头b结尾的字串,也就是整个字符串。如果要进⾏懒惰匹配,也就是匹配最短的字串,只需要在后⾯加个“?”,⽐如sub("a.*?b","",c("aabab","eabbe")),就会匹配最开始到的最短的a开头b结尾的字串。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论