JavaScript-正则表达式

时间 2019-11-20

原文原文链接

匹配规则

一、元字符

点字符（.)

点字符（.）匹配除回车（\r）、换行(\n) 、行分隔符（\u2028）和段分隔符（\u2029）之外的全部字符。注意，对于码点大于0xFFFF字符，点字符不能正确匹配，会认为这是两个字符。javascript

注意：只匹配一个字符html

位置字符

位置字符用来提示字符所处的位置，主要有两个字符。java

^ 表示字符串的开始位置
$ 表示字符串的结束位置

^表示字符串的开头，^\d表示必须以数字开头。正则表达式

$表示字符串的结束，\d$表示必须以数字结束。编码

选择符（`|`）

竖线符号（|）在正则表达式中表示“或关系”（OR），即cat|dog表示匹配cat或dog。spa

注意：选择符会包括它先后的多个字符，若是想修改这个行为，可使用圆括号。code

其余的元字符还包括\、\*、+、?、()、[]、{}等regexp

二、转义符

正则表达式中，须要反斜杠转义的，一共有12个字符：^、.、[、$、(、)、|、*、+、?、{和\。须要特别注意的是，若是使用RegExp方法生成正则对象，转义须要使用两个斜杠，由于字符串内部会先转义一次。htm

三、特殊字符

\cX 表示Ctrl-[X]，其中的X是A-Z之中任一个英文字母，用来匹配控制字符。
[\b] 匹配退格键(U+0008)，不要与\b混淆。
\n 匹配换行键。
\r 匹配回车键。
\t 匹配制表符 tab（U+0009）。
\v 匹配垂直制表符（U+000B）。
\f 匹配换页符（U+000C）。
\0 匹配null字符（U+0000）。
\xhh 匹配一个以两位十六进制数（\x00-\xFF）表示的字符。
\uhhhh 匹配一个以四位十六进制数（\u0000-\uFFFF）表示的 Unicode 字符。

四、字符类

字符类（class）表示有一系列字符可供选择，只要匹配其中一个就能够了。全部可供选择的字符都放在方括号内，好比[xyz] 表示x、y、z之中任选一个匹配。对象

有两个字符在字符类中有特殊含义。

（1）脱字符（^）

若是方括号内的第一个字符是[^]，则表示除了字符类之中的字符，其余字符均可以匹配。好比，[^xyz]表示除了x、y、z以外均可以匹配。

若是方括号内没有其余字符，即只有[^]，就表示匹配一切字符，其中包括换行符。

（2）连字符（-）

某些状况下，对于连续序列的字符，连字符（-）用来提供简写形式，表示字符的连续范围。好比，[abc]能够写成[a-c]，[0123456789]能够写成[0-9]，同理[A-Z]表示26个大写字母。

注意：当连字号（dash）不出如今方括号之中，就不具有简写的做用，只表明字面的含义

字符类[1-31]，不表明1到31，只表明1到3

另外，不要过度使用连字符，设定一个很大的范围，不然极可能选中意料以外的字符。最典型的例子就是[A-z]，表面上它是选中从大写的A到小写的z之间52个字母，可是因为在 ASCII 编码之中，大写字母与小写字母之间还有其余字符，结果就会出现意料以外的结果。

五、预约义模式

预约义模式指的是某些常见模式的简写方式。

\d 匹配0-9之间的任一数字，至关于[0-9]。
\D 匹配全部0-9之外的字符，至关于[^0-9]。
\w 匹配任意的字母、数字和下划线，至关于[A-Za-z0-9_]。
\W 除全部字母、数字和下划线之外的字符，至关于[^A-Za-z0-9_]。
\s 匹配空格（包括换行符、制表符、空格符等），相等于[ \t\r\n\v\f]。
\S 匹配非空格的字符，至关于[^ \t\r\n\v\f]。
\b 匹配词的边界。
\B 匹配非词边界，即在词的内部。

六、重复类

模式的精确匹配次数，使用大括号（{}）表示。{n}表示刚好重复n次，{n,}表示至少重复n次，{n,m}表示重复很多于n次，很少于m次。

七、量词符

量词符用来设定某个模式出现的次数。

? 问号表示某个模式出现0次或1次，等同于{0, 1}。
* 星号表示某个模式出现0次或屡次，等同于{0,}。
+ 加号表示某个模式出现1次或屡次，等同于{1,}。

八、贪婪模式

上述的三个量词符，默认状况下都是最大可能匹配，即匹配直到下一个字符不知足匹配规则为止。这被称为贪婪模式。

若是想将贪婪模式改成非贪婪模式，能够在量词符后面加一个问号。

+?：表示某个模式出现1次或屡次，匹配时采用非贪婪模式。
*?：表示某个模式出现0次或屡次，匹配时采用非贪婪模式。
??：表格某个模式出现0次或1次，匹配时采用非贪婪模式。

九、修饰符

修饰符（modifier）表示模式的附加规则，放在正则模式的最尾部。

g 修饰符

默认状况下，第一次匹配成功后，正则对象就中止向下匹配了。g修饰符表示全局匹配（global），加上它之后，正则对象将匹配所有符合条件的结果，主要用于搜索和替换。

i 修饰符

默认状况下，正则对象区分字母的大小写，加上i修饰符之后表示忽略大小写（ignoreCase）。

m修饰符

m修饰符表示多行模式（multiline），会修改^和$的行为。默认状况下（即不加m修饰符时），^和$匹配字符串的开始处和结尾处，加上m修饰符之后，^和$还会匹配行首和行尾，即^和$会识别换行符（\n）。

注意：加上m修饰符之后，换行符\n也会被认为是一行的开始。

/^b/m.test('a\nb') // true

十、组匹配

正则表达式的括号表示分组匹配，括号中的模式能够用来匹配分组的内容。

参考资料：

https://wangdoc.com/javascript/stdlib/regexp.html

https://www.liaoxuefeng.com/wiki/897692888725344/923056128128864