[转]RegExp构造函数创建了⼀个正则表达式对象,⽤于将⽂本
与⼀个模式匹配
RegExp构造函数创建了⼀个正则表达式对象,⽤于将⽂本与⼀个模式匹配。
有关正则表达式的介绍,请阅读中的。
const regex1 = /\w+/;
const regex2 = new RegExp('\\w+');
console.log(regex1);
// expected output: /\w+/
console.log(regex2);
// expected output: /\w+/
console.log(regex1 === regex2);
/
/ expected output: false
语法
字⾯量, 构造函数和⼯⼚符号都是可以的:
/pattern/flags
new RegExp(pattern[, flags])
RegExp(pattern[, flags])
参数
pattern
正则表达式的⽂本。
flags
如果指定,标志可以具有以下值的任意组合:
g
全局匹配;到所有匹配,⽽不是在第⼀个匹配后停⽌
i
忽略⼤⼩写
m
多⾏; 将开始和结束字符(^和$)视为在多⾏上⼯作(也就是,分别匹配每⼀⾏的开始和结束(由 \n 或 \r 分割),⽽不只是只匹配整个输⼊字符串的最开始和最末尾处。
u
Unicode; 将模式视为Unicode序列点的序列
y
粘性匹配; 仅匹配⽬标字符串中此正则表达式的lastIndex属性指⽰的索引(并且不尝试从任何后续的索引匹配)。
描述
有两种⽅法来创建⼀个RegExp对象:⼀是字⾯量、⼆是构造函数。要指⽰字符串,字⾯量的参数不使⽤引号,⽽构造函数的参数使⽤引号。因此,以下表达式创建相同的正则表达式:
/ab+c/i;
new RegExp('ab+c', 'i');
new RegExp(/ab+c/, 'i');
当表达式被赋值时,字⾯量形式提供正则表达式的编译(compilation)状态,当正则表达式保持为常量时使⽤字⾯量。例如当你在循环中使⽤字⾯量构造⼀个正则表达式时,正则表达式不会在每⼀次迭代中都被重新编译(recompiled)。
⽽正则表达式对象的构造函数,如new RegExp('ab+c')提供了正则表达式运⾏时编译(runtime compilation)。如果你知道正则表达式模式将会改变,或者你事先不知道什么模式,⽽是从另⼀个来源获取,如⽤户输⼊,这些情况都可以使⽤构造函数。
从ECMAScript 6开始,当第⼀个参数为正则表达式⽽第⼆个标志参数存在时,new RegExp(/ab+c/, 'i')
不再抛出(“当从其他正则表达式进⾏构造时不⽀持标志”)的异常,取⽽代之,将使⽤这些参数创建⼀个新的正则表达式。
当使⽤构造函数创造正则对象时,需要常规的字符转义规则(在前⾯加反斜杠 \)。⽐如,以下是等价的:
var re = new RegExp("\\w+");
var re = /\w+/;
正则表达式中特殊字符的含义
字符类别(Character Classes)字符含义
.(点号,⼩数点) 匹配任意单个字符,但是⾏结束符除外:\n\r\u2028或\u2029。
在字符集中,点( . )失去其特殊含义,并匹配⼀个字⾯点( . )。
需要注意的是,m多⾏(multiline)标志不会改变点号的表现。因此为了匹配多⾏中的字符集,可使⽤[^](当然你不是打算⽤在旧版本 IE 中),它将会匹配任意字符,包括换⾏符。
例如,/.y/匹配 "yes make my day" 中的 "my" 和 "ay",但是不匹配 "yes"。
\d
匹配任意阿拉伯数字。等价于[0-9]。
例如,/\d/或/[0-9]/匹配 "B2 is the suite number." 中的 '2'。
\D
匹配任意⼀个不是阿拉伯数字的字符。等价于[^0-9]。
例如,/\D/或/[^0-9]/匹配 "B2 is the suite number." 中的 'B'。
\w
匹配任意来⾃基本拉丁字母表中的字母数字字符,还包括下划线。等价于[A-Za-z0-9_]。
例如,/\w/匹配 "apple" 中的 'a',"$5.28" 中的 '5' 和 "3D" 中的 '3'。
\W
匹配任意不是基本拉丁字母表中单词(字母数字下划线)字符的字符。等价于[^A-Za-z0-9_]。
例如,/\W/或/[^A-Za-z0-9_]/匹配 "50%" 中的 '%'。
\s 匹配⼀个空⽩符,包括空格、制表符、换页符、换⾏符和其他 Unicode 空格。
等价于[ \f\n\r\t\v\u00a0\u1680\u180e\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029\u202f\u205f\u3000]。例如/\s\w*/匹配 "foo bar" 中的 ' bar'。
\S 匹配⼀个⾮空⽩符。等价于[^ \f\n\r\t\v\u00a0\u1680\u180e\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u2028\u2029 \u202f\u205f\u3000]。
例如,/\S\w*/匹配 "foo bar" 中的 'foo'。
\t匹配⼀个⽔平制表符(tab)
\r匹配⼀个回车符(carriage return)
\n匹配⼀个换⾏符(linefeed)
\v匹配⼀个垂直制表符(vertical tab)
\f匹配⼀个换页符(form-feed)
[\b]匹配⼀个退格符(backspace)(不要与\b混淆)
\0匹配⼀个 NUL 字符。不要在此后⾯跟⼩数点。
\cX
X是 A - Z 的⼀个字母。匹配字符串中的⼀个控制字符。
例如,/\cM/匹配字符串中的 control-M。
\xhh匹配编码为hh(两个⼗六进制数字)的字符。
\uhhhh匹配 Unicode 值为hhhh(四个⼗六进制数字)的字符。
\对于那些通常被认为字⾯意义的字符来说,表⽰下⼀个字符具有特殊⽤处,并且不会被按照字⾯意义解释。
例如/b/匹配字符 'b'。在 b 前⾯加上⼀个反斜杠,即使⽤/\b/,则该字符变得特殊,以为这匹配⼀个单词边界。
或
对于那些通常特殊对待的字符,表⽰下⼀个字符不具有特殊⽤途,会被按照字⾯意义解释。
例如,* 是⼀个特殊字符,表⽰匹配某个字符 0 或多次,如/a*/意味着 0 或多个 "a"。为了匹配字⾯意义上的*,在它前⾯加上⼀个反斜杠,例如,/a\*/匹配 'a*'。
字符集合(Character Sets)
字符含义
⼀个字符集合,也叫字符组。匹配集合中的任意⼀个字符。你可以使⽤连字符'-'指定⼀个范围。
[xyz]⼀个字符集合,也叫字符组。匹配集合中的任意⼀个字符。你可以使⽤连字符'-'指定⼀个范围。
例如,[abcd] 等价于 [a-d],匹配"brisket"中的'b'和"chop"中的'c'。[^xyz]
⼀个反义或补充字符集,也叫反义字符组。也就是说,它匹配任意不在括号内的字符。你也可以通过使
⽤连字符 '-' 指定⼀个范围内的字符。例如,[^abc] 等价于 [^a-c]。 第⼀个匹配的是 "bacon" 中的'o' 和 "chop" 中的 'h'。
边界(Boundaries )
字符
含义^匹配输⼊开始。如果多⾏(multiline )标志被设为 true ,该字符也会匹配⼀个断⾏(line break )符后的开始处。
例如,/^A/ 不匹配 "an A" 中的 "A",但匹配 "An A" 中的 "A"。
$
匹配输⼊结尾。如果多⾏(multiline )标志被设为 true ,该字符也会匹配⼀个断⾏(line break )符的前的结尾处。
例如,/t$/ 不匹配 "eater" 中的 "t",但匹配 "eat" 中的 "t"。
\b
匹配⼀个零宽单词边界(zero-width word boundary ),如⼀个字母与⼀个空格之间。 (不要和 [\b] 混淆)
例如,/\bno/ 匹配 "at noon" 中的 "no",/ly\b/ 匹配 "possibly yesterday." 中的 "ly"。
\B
匹配⼀个零宽⾮单词边界(zero-width non-word boundary ),如两个字母之间或两个空格之间。
例如,/\Bon/ 匹配 "at noon" 中的 "on",/ye\B/ 匹配 "possibly yesterday." 中的 "ye"。
分组(Grouping )与反向引⽤(back references )
字符含义
(x)
匹配 x 并且捕获匹配项。 这被称为捕获括号(capturing parentheses )。
例如,/(foo)/ 匹配且捕获 "foo bar." 中的 "foo"。被匹配的⼦字符串可以在结果数组的元素 [1], ..., [n] 中到,或在被定义的 RegExp 对象的属性 $1, ..., $9 中到。
捕获组(Capturing groups )有性能惩罚。如果不需再次访问被匹配的⼦字符串,最好使⽤⾮捕获括号(non-capturing
parentheses ),见下⾯。
\n n 是⼀个正整数。⼀个反向引⽤(back reference ),指向正则表达式中第 n 个括号(从左开始数)中匹配的⼦字符串。
例如,/apple(,)\sorange\1/ 匹配 "apple, orange, cherry, peach." 中的 "apple,orange,"。⼀个更全⾯的例⼦在该表格下⾯。
(?:x)匹配 x 不会捕获匹配项。这被称为⾮捕获括号(non-capturing parentheses )。匹配项不能够从结果数组的元素 [1], ..., [n] 或已被定义
的 RegExp 对象的属性 $1, ..., $9 再次访问到。
数量词(Quantifiers )
字符
含义
x*
匹配前⾯的模式 x 0 或多次。例如,/bo*/ 匹配 "A ghost booooed" 中的 "boooo","A bird warbled" 中的 "b",但是不匹配 "A goat grunted"。
x+
匹配前⾯的模式 x 1 或多次。等价于 {1,}。
例如,/a+/ 匹配 "candy" 中的 "a","caaaaaaandy" 中所有的 "a"。
x*?
x+?像上⾯的 * 和 + ⼀样匹配前⾯的模式 x ,然⽽匹配是最⼩可能匹配。例如,/".*?"/ 匹配 '"foo" "bar"' 中的 '"foo"',⽽ * 后⾯没有 ? 时匹配 '"foo" "bar"'。
x?匹配前⾯的模式 x 0 或 1 次。
例如,/e?le?/ 匹配 "angel" 中的 "el","angle" 中的 "le"。
如果在数量词 *、+、? 或 {}, 任意⼀个后⾯紧跟该符号(?),会使数量词变为⾮贪婪( non-greedy ) ,
即匹配次数最⼩化。反之,默
认情况下,是贪婪的(greedy ),即匹配次数最⼤化。
在使⽤于向前断⾔(lookahead assertions )时,见该表格中 (?=)、(?!) 和 (?:) 的说明。x(?=y)只有当 x 后⾯紧跟着 y 时,才匹配 x 。 例如,/Jack(?=Sprat)/ 只有在 'Jack' 后⾯紧跟着 'Sprat' 时,才会匹配它。/Jack(?=Sprat|Frost)/ 只有在 'Jack' 后⾯紧跟着 'Sprat' 或 'Frost' 时,才会匹配它。然⽽,'Sprat' 或 'Frost' 都不是匹配结果的⼀部分。
x(?!y)
只有当 x 后⾯不是紧跟着 y 时,才匹配 x 。例如,/\d+(?!\.)/ 只有当⼀个数字后⾯没有紧跟着⼀个⼩数点时,才会匹配该数字。/\d+(?!\.)/.exec("3.141") 匹配 141 ⽽不是 3.141。
x|y
匹配 x 或 y
例如,/green|red/ 匹配 "green apple" 中的 ‘green',"red apple." 中的 'red'。
x{n}
n 是⼀个正整数。前⾯的模式 x 连续出现 n 次时匹配。
例如,/a{2}/ 不匹配 "candy," 中的 "a",但是匹配 "caandy," 中的两个 "a",且匹配 "caaandy." 中的前两个 "a"。
x{n,}
n 是⼀个正整数。前⾯的模式 x 连续出现⾄少 n 次时匹配。
例如,/a{2,}/ 不匹配 "candy" 中的 "a",但是匹配 "caandy" 和 "caaaaaaandy." 中所有的 "a"。
n 和 m 为正整数。前⾯的模式 x 连续出现⾄少 n 次,⾄多 m 次时匹配。
x{n,m}
n和m为正整数。前⾯的模式 x 连续出现⾄少 n 次,⾄多 m 次时匹配。
例如,/a{1,3}/不匹配 "cndy",匹配 "candy," 中的 "a","caandy," 中的两个 "a",匹配 "caaaaaaandy" 中的前⾯三个 "a"。注意,当匹
配 "caaaaaaandy" 时,即使原始字符串拥有更多的 "a",匹配项也是 "aaa"。
断⾔(Assertions)
字符含义
x(?=y)仅匹配被y跟随的x。
举个例⼦,/Jack(?=Sprat)/,如果"Jack"后⾯跟着sprat,则匹配之。
/Jack(?=Sprat|Frost)/,如果"Jack"后⾯跟着"Sprat"或者"Frost",则匹配之。但是,"Sprat" 和"Frost" 都不会在匹配结果中出现。
x(?!y)仅匹配不被y跟随的x。
举个例⼦,/\d+(?!\.)/只会匹配不被点(.)跟随的数字。/\d+(?!\.)/.exec('3.141') 匹配"141",⽽不是"3.141"
1. 等价于:
[\t\n\v\f\r \u00a0\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u200b\u2028\u2029\u3000]
属性
允许为所有正则对象添加属性。
RegExp.length
RegExp.length值为 2。
Properties inherited from :
, , , ,
⽅法
全局对象RegExp⾃⾝没有⽅法, 不过它会继承⼀些⽅法通过原型链
Methods inherited from :
, , ,
RegExp 实例
属性
查看
注意,RegExp对象的⼏个属性既有完整的长属性名,也有对应的类 Perl 的短属性名。两个属性都有着同样的值。JavaScript 的正则语法就是基于 Perl 的。
structor
创建该正则对象的构造函数。
是否开启全局匹配,也就是匹配⽬标字符串中所有可能的匹配项,⽽不是只进⾏第⼀次匹配。
在匹配字符串时是否要忽略字符的⼤⼩写。
下次匹配开始的字符串索引位置。
是否开启多⾏模式匹配(影响 ^ 和 $ 的⾏为)。
正则对象的源模式⽂本。
是否开启粘滞匹配。
Properties inherited from :
,
⽅法
查看
在⽬标字符串中执⾏⼀次正则匹配操作。
测试当前正则是否能匹配⽬标字符串。
返回⼀个字符串,其值为该正则对象的字⾯量形式。覆盖了Source⽅法.
返回⼀个字符串,其值为该正则对象的字⾯量形式。覆盖了⽅法。
Methods inherited from :
, , , , , , , , , , ,
例⼦
例⼦:使⽤正则改变数据结构
下例使⽤⽅法(继承⾃)去匹配姓名 first last 输出新的格式 last, first。脚本中使⽤$1 和$2指明括号⾥先前的匹配.
var re = /(\w+)\s(\w+)/;
var str = "John Smith";
var newstr = place(re, "$2, $1");
print(newstr);
显⽰ "Smith, John".
例⼦:在多⾏中使⽤正则表达式
var s = "Please yes\nmake my day!";
s.match(/yes.*day/);
// Returns null
s.match(/yes[^]*day/);
// Returns 'yes\nmake my day'
例⼦: 使⽤带有 ”sticky“ 标志的正则表达式
该例展⽰了,如何在正则表达式上使⽤ sticky 标志,⽤来匹配多⾏输⼊的单独⾏。
var text = "First line\nsecond line";
var regex = /(\S+) line\n?/y;
var match = (text);
print(match[1]); // prints "First"
print(regex.lastIndex); // prints 11
var match2 = (text);
print(match2[1]); // prints "Second"
print(regex.lastIndex); // prints "22"
var match3 = (text);
print(match3 === null); // prints "true"
可以使⽤try { … } catch { … }来测试运⾏时(run-time)是否⽀持sticky标志。这种情况下,必须使⽤eval(…)表达式或RegExp(regex-string, flags-string)语法(这是由于/regex/flags表⽰法将会在编译时刻被处理,因此在catch语句块处理异常前就会抛出⼀个异常。例如:
var supports_sticky;
try { RegExp('','y'); supports_sticky = true; }
catch(e) { supports_sticky = false; }
alert(supports_sticky); // alerts "false" in Firefox 2, "true" in Firefox 3+
例⼦:使⽤正则表达式和 Unicode 字符
正如上⾯表格提到的,\w或\W只会匹配基本的 ASCII 字符;如 'a' 到 'z'、 'A' 到 'Z'、 0 到 9 及 '_'。为了
匹配其他语⾔中的字符,如西⾥尔(Cyrillic)或希伯来语(Hebrew),要使⽤\uhhhh,"hhhh" 表⽰以⼗六进制表⽰的字符的 Unicode 值。下例展⽰了怎样从⼀个单词中分离出 Unicode 字符。
var text = "Образец text на русском языке";
var regex = /[\u0400-\u04FF]+/g;
var match = (text);
print(match[1]); // prints "Образец"
print(regex.lastIndex); // prints "7"
var match2 = (text);
print(match2[1]); // prints "на" [did not print "text"]
print(regex.lastIndex); // prints "15"
// and so on
这⾥有⼀个外部资源,⽤来获取 Unicode 中的不同区块范围:
例⼦:从 URL 中提取⼦域名
var url = "xxx.domain";
print(/[^.]+/.exec(url)[0].substr(7)); // prints "xxx"
规范
Specification Status Comment字符串按照反斜杠转成数组
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论