JavaScript正则表达式详解

时间 2019-11-16

原文原文链接

在JavaScript中，正则表达式由RegExp对象表示。RegExp对象呢，又能够经过直接量和构造函数RegExp两种方式建立，分别以下：linux

//直接量
var re = /pattern/[g | i | m];

//构造函数
var re = new RegExp(["pattern", ["g" | "i" | "m"]]);

其中，末尾的可选字符（g、i和m）分别表示：正则表达式

　　g：模式执行一个全局匹配。简而言之，就是找到全部匹配，而不是在找到第一个以后就中止。数组

　　i：模式执行不区分大小写的匹配。函数

　　m: 多行模式，^和$锚除了匹配字符串的开头和结尾外，还匹配每行的开头和结尾。例如，模式/Java$/m匹配"Java"和"Java\nScript"。测试

基础篇

--特殊字符--spa

在正则表达式中，全部的字母字符和数字均可以按照直接量与自身匹配，如/JavaScript/匹配的就是字符串"JavaScript"，可是有些特殊字符呢？如换行符。因此在JavaScript中规定以反斜杠（\）开头的转义序列支持这些特殊字符。经常使用的特殊字符以下：code

转义字符regexp	匹配htm
\n对象	换行符
\r	回车
\f	换页符
\t	制表符
\v	垂直制表符

--字符类--

在正则表达式中，假若将单独的字符放入方括号（[ ]）中，就能够组合成字符类。应用到匹配字符串中，咱们能够将其当作一个漏斗，当字符串中的每一个字符经过它时，都查找是否在这个类里面，如若在，就匹配成功，不然out。以下：

/*
    match为字符串的方法，它的惟一参数就是一个正则表达式，
    若是该正则表达式设置了标志g，该方法返回的数组包含的就是出如今字符串中的全部匹配。
    详细的用法将在下面“正则表达式在String中的应用”细讲
*/
"abc".match(/[abc]/g);

匹配结果为：

若是咱们的意愿是，想匹配除字符a、b、c以外的字符呢？咱们能够定义一个否认类，只需将^符号放入[ ]中做为开头就OK啦。以下：

"abc".match(/[^abc]/g);

因为某些字符类常常用到，固JavaScript的正则表达式就用反斜杠（\）与一些特殊字符组合起来表示这些经常使用类，而没必要再须要咱们自行添加，如\d。

经常使用正则字符类以下：

字符类	匹配	例子
[ …]	位于方括号之中的任意字符	/M[onke]y/ 匹配 "Moy"
[ ^…]	除包含在方括号之中的任意字符	/M[^onke]y/ 匹配 "May"
.	除换行符以外的任意字符	/../ 匹配 "Mo"
\w	字母、数字或下划线	/1\w/ 匹配 "1A"
\W	除字母、数字和下划线以外的字符	/1\W/ 匹配 "1%"
\s	单个空白字符	/M\sK/ 匹配 "M K"
\S	单个非空白字符	/M\SK/ 匹配 "M_K"
\d	0到9的数字	/\d/ 匹配 "1"
\D	非数字	/\D/ 匹配 "M"

--重复匹配--

当咱们须要匹配三位数字时，咱们能够这样：/\d\d\d/，可是当咱们须要匹配10位或者更多时呢？考虑到这一点，正则表达式为咱们提供了重复字符{ n, m }，表示匹配前一项至少n次，可是不能超过m次。例如，刚才咱们所说的匹配三位数字时，咱们能够利用重复字符这样啦：/\d{3}/。

因为某些重复类型常常用到，so，正则规定一些特殊字符表示这些重复类型。

正则重复字符，详情见下：

字符	含义	例子
{n, m}	匹配前一项至少n次，但不能超过m次	/\d{2,3}/ 匹配"12"
{n, }	匹配前一项至少n次，或者更多	/\d{2, }/ 匹配"123"
{n}	匹配前一项刚好n次	/\d{2}/ 匹配"12"
？	匹配前一项0次或者1次，等价于{0,1}	/\d?/ 匹配"2"
+	匹配前一项1次或者屡次，等价于{1, }	/\d+/ 匹配"12"
*	匹配前一项0次或者屡次，等价于{0, }	/\d*/ 匹配"12"

另，以上重复字符重复规则为：尽量多的匹配，即俗称的“贪婪匹配”，如："aaaa".match(/a+/);匹配的就是整个字符串"aaaa"，而不是匹配到第一个字符a时，就放弃匹配。

那么，有所谓的"贪婪匹配"，就有"非贪婪匹配"，它的规则嘛，确定与"贪婪匹配"相反咯，即：尽量少的匹配。

那么，怎么才能触发非贪婪模式呢？

只须要在重复字符后加入?，就ok啦，如（{1, 4}?、+?等），如"aaaa".match(/a+?/);就只会匹配首个字符a咯。

注意，是尽量少的匹配，而不是少的匹配哦。

神马意思？以下：

"aaab".match(/a*b/);

"aaab".match(/a*?b/);

！匹配结果都是"aaab"！

有没有点诧异，为何"aaab".match(/a*?b/);的匹配结果会是"aaab"，而不是"ab"呢？

那是由于正则匹配都是从左往右的，就"aaab".match(/a*?b/);而言，当遇到首字符a时，它会继续往下匹配，直到能符合匹配模式/a*?b/为止，这就是为何说是尽量少的匹配，前提是知足匹配规则。

如"abbb".match(/ab*?/)的匹配结果就是"a"啦。

--字符 |、( )、(?: …)--

1.一、字符" | " 用于分隔，表示或。

什么意思？

举个栗子，如/ab | cd | ef/就能够匹配字符串"ab"或者"cd"或者"ef"。

是否是和字符类[ ]很像啊？

是的，如/a | b | c/和/[abc]/匹配效果是同样的哦。

But，字符类[ ]仅针对单个字符而言，而分隔字符" | "涉及更广，能够针对多个字符而言，如上述所说的/ab | cd | ef/，字符类就不行咯。

你可能会说，若是我想对利用" | "组装的类进行屡次匹配呢？

加个括号就是啦。如：

/(ab | cd |ef)+/

好滴，说到括号，咱们再来看看它的做用。很是强大哦。

--------------------------------------分割线 --------------------------------------

Linux 基础入门教程----正则表达式基础 http://www.linuxidc.com/Linux/2015-08/121441.htm

Linux正则表达式sed 详述 http://www.linuxidc.com/Linux/2015-04/116309.htm

Linux正则表达式特性及BRE与ERE的区别 http://www.linuxidc.com/Linux/2014-03/99152.htm

grep使用简明及正则表达式 http://www.linuxidc.com/Linux/2013-08/88534.htm

正则表达式的用法 http://www.linuxidc.com/Linux/2013-03/81897.htm

正则表达式之零宽断言 http://www.linuxidc.com/Linux/2013-03/81897.htm

Linux中正则表达式与文件格式化处理命令(awk/grep/sed) http://www.linuxidc.com/Linux/2013-03/81018.htm

基础正则表达式 http://www.linuxidc.com/Linux/2014-09/106296.htm

经常使用正则表达式整理 http://www.linuxidc.com/Linux/2014-10/108076.htm

--------------------------------------分割线 --------------------------------------

1.二、括号"( )"

括号的做用以下：

　　一、咱们能够将一个单独的项目组合成一个子表达式，以便咱们能够用|、*等来处理它。如，上诉所示的/(ab | cd | ef)+/。

　　二、利用括号括起来的部分，咱们能够在正则表达式的后面引用前面用括号括起来的子表达式的匹配结果，注意是结果，而不是括起来的正则表达式。

针对第二点，有什么用呢？如咱们有个需求，我想匹配在单引号或者双引号中的数字（’12345’）时，咱们就可垂手可得利用这第二点，写好正则表达式，以下：

/(['"])\d*\1/

测试结果以下：

好了，就第二点做用而言，结合上述demo，咱们再来看看它的具体引用法则吧：

----以反斜杠\加数字的方式，引用前面带括号的子表达式，而这个数字呢指的就是第几个子表达式，计算规则为从左往右，计算遇到的左括号" ( "，到想引用的地方位置为止，不管在括号中还嵌套不嵌套括号。

测试Demo以下：

咦，假若我只想让括号的做用为分组，而不想在后面计入引用呢？毕竟括号多了，很差计算呢。

那么，咱们就来看看字符(?: …)咯。

1.三、(?: …)

(?: …)的做用就是，规定括号只用于分组，而不计入后面的引用，很差理解，看个demo就明白啦。以下：

/(Java(?:Script))(nice)/

若是我想在末尾引用子表达式nice，那么是\2，而不是\3咯，由于用(?: …)来分组滴，只管分组，而不引用，切记切记。

对(?: …)的测试demo以下：

--匹配位置--

在前面咱们提到，建立正则对象时，可选字符m表示：多行模式，^和$锚除了匹配字符串的开头和结尾外，还匹配每行的开头和结尾。

那么这个^和$就是正则为咱们提供的匹配位置，即所谓的锚。

例如：

将/JavaScript/变为/^JavaScript/，就只匹配字符串中开头为JavaScript的啦，如匹配"JavaScriptxxx"中的JavaScript，而不匹配"xxxJavaScript"中的JavaScript。

正则表达式中的锚字符详情见下：

字符	含义
^	匹配字符串的开头
$	匹配字符串的结尾
\b	匹配一个词语的边界，指[a-zA-Z_0-9]以外的字符
\B	匹配非词语边界位置
(? = p)	正前向声明，exp1(?=exp2)，匹配后面是exp2的exp1
(? ! p)	反前向声明，exp1(?!exp2)，匹配后面不是exp2的exp1

^和$好理解，可是\b、(?=)、(?!)可能比较陌生，结合上表，咱们再来看看下面的demo就好啦。

对于\b的Demo以下：

对于(? = p)的Demo以下：

对于(? ! p)的Demo以下：

具体应用见下一页

更多详情见请继续阅读下一页的精彩内容： http://www.linuxidc.com/Linux/2016-08/134160p2.htm

在JavaScript中，正则表达式由RegExp对象表示。RegExp对象呢，又能够经过直接量和构造函数RegExp两种方式建立，分别以下：

//直接量
var re = /pattern/[g | i | m];

//构造函数
var re = new RegExp(["pattern", ["g" | "i" | "m"]]);

其中，末尾的可选字符（g、i和m）分别表示：

　　g：模式执行一个全局匹配。简而言之，就是找到全部匹配，而不是在找到第一个以后就中止。

　　i：模式执行不区分大小写的匹配。

　　m: 多行模式，^和$锚除了匹配字符串的开头和结尾外，还匹配每行的开头和结尾。例如，模式/Java$/m匹配"Java"和"Java\nScript"。

基础篇

--特殊字符--

在正则表达式中，全部的字母字符和数字均可以按照直接量与自身匹配，如/JavaScript/匹配的就是字符串"JavaScript"，可是有些特殊字符呢？如换行符。因此在JavaScript中规定以反斜杠（\）开头的转义序列支持这些特殊字符。经常使用的特殊字符以下：

转义字符	匹配
\n	换行符
\r	回车
\f	换页符
\t	制表符
\v	垂直制表符

--字符类--

/*
    match为字符串的方法，它的惟一参数就是一个正则表达式，
    若是该正则表达式设置了标志g，该方法返回的数组包含的就是出如今字符串中的全部匹配。
    详细的用法将在下面“正则表达式在String中的应用”细讲
*/
"abc".match(/[abc]/g);

匹配结果为：

若是咱们的意愿是，想匹配除字符a、b、c以外的字符呢？咱们能够定义一个否认类，只需将^符号放入[ ]中做为开头就OK啦。以下：

"abc".match(/[^abc]/g);

经常使用正则字符类以下：

字符类	匹配	例子
[ …]	位于方括号之中的任意字符	/M[onke]y/ 匹配 "Moy"
[ ^…]	除包含在方括号之中的任意字符	/M[^onke]y/ 匹配 "May"
.	除换行符以外的任意字符	/../ 匹配 "Mo"
\w	字母、数字或下划线	/1\w/ 匹配 "1A"
\W	除字母、数字和下划线以外的字符	/1\W/ 匹配 "1%"
\s	单个空白字符	/M\sK/ 匹配 "M K"
\S	单个非空白字符	/M\SK/ 匹配 "M_K"
\d	0到9的数字	/\d/ 匹配 "1"
\D	非数字	/\D/ 匹配 "M"

--重复匹配--

因为某些重复类型常常用到，so，正则规定一些特殊字符表示这些重复类型。

正则重复字符，详情见下：

字符	含义	例子
{n, m}	匹配前一项至少n次，但不能超过m次	/\d{2,3}/ 匹配"12"
{n, }	匹配前一项至少n次，或者更多	/\d{2, }/ 匹配"123"
{n}	匹配前一项刚好n次	/\d{2}/ 匹配"12"
？	匹配前一项0次或者1次，等价于{0,1}	/\d?/ 匹配"2"
+	匹配前一项1次或者屡次，等价于{1, }	/\d+/ 匹配"12"
*	匹配前一项0次或者屡次，等价于{0, }	/\d*/ 匹配"12"

那么，有所谓的"贪婪匹配"，就有"非贪婪匹配"，它的规则嘛，确定与"贪婪匹配"相反咯，即：尽量少的匹配。

那么，怎么才能触发非贪婪模式呢？

只须要在重复字符后加入?，就ok啦，如（{1, 4}?、+?等），如"aaaa".match(/a+?/);就只会匹配首个字符a咯。

注意，是尽量少的匹配，而不是少的匹配哦。

神马意思？以下：

"aaab".match(/a*b/);

"aaab".match(/a*?b/);

！匹配结果都是"aaab"！

有没有点诧异，为何"aaab".match(/a*?b/);的匹配结果会是"aaab"，而不是"ab"呢？

如"abbb".match(/ab*?/)的匹配结果就是"a"啦。

--字符 |、( )、(?: …)--

1.一、字符" | " 用于分隔，表示或。

什么意思？

举个栗子，如/ab | cd | ef/就能够匹配字符串"ab"或者"cd"或者"ef"。

是否是和字符类[ ]很像啊？

是的，如/a | b | c/和/[abc]/匹配效果是同样的哦。

But，字符类[ ]仅针对单个字符而言，而分隔字符" | "涉及更广，能够针对多个字符而言，如上述所说的/ab | cd | ef/，字符类就不行咯。

你可能会说，若是我想对利用" | "组装的类进行屡次匹配呢？

加个括号就是啦。如：

/(ab | cd |ef)+/

好滴，说到括号，咱们再来看看它的做用。很是强大哦。

--------------------------------------分割线 --------------------------------------

Linux 基础入门教程----正则表达式基础 http://www.linuxidc.com/Linux/2015-08/121441.htm

Linux正则表达式sed 详述 http://www.linuxidc.com/Linux/2015-04/116309.htm

Linux正则表达式特性及BRE与ERE的区别 http://www.linuxidc.com/Linux/2014-03/99152.htm

grep使用简明及正则表达式 http://www.linuxidc.com/Linux/2013-08/88534.htm

正则表达式的用法 http://www.linuxidc.com/Linux/2013-03/81897.htm

正则表达式之零宽断言 http://www.linuxidc.com/Linux/2013-03/81897.htm

Linux中正则表达式与文件格式化处理命令(awk/grep/sed) http://www.linuxidc.com/Linux/2013-03/81018.htm

基础正则表达式 http://www.linuxidc.com/Linux/2014-09/106296.htm

经常使用正则表达式整理 http://www.linuxidc.com/Linux/2014-10/108076.htm

--------------------------------------分割线 --------------------------------------

1.二、括号"( )"

括号的做用以下：

　　一、咱们能够将一个单独的项目组合成一个子表达式，以便咱们能够用|、*等来处理它。如，上诉所示的/(ab | cd | ef)+/。

　　二、利用括号括起来的部分，咱们能够在正则表达式的后面引用前面用括号括起来的子表达式的匹配结果，注意是结果，而不是括起来的正则表达式。

/(['"])\d*\1/

测试结果以下：

好了，就第二点做用而言，结合上述demo，咱们再来看看它的具体引用法则吧：

测试Demo以下：

咦，假若我只想让括号的做用为分组，而不想在后面计入引用呢？毕竟括号多了，很差计算呢。

那么，咱们就来看看字符(?: …)咯。

1.三、(?: …)

(?: …)的做用就是，规定括号只用于分组，而不计入后面的引用，很差理解，看个demo就明白啦。以下：

/(Java(?:Script))(nice)/

若是我想在末尾引用子表达式nice，那么是\2，而不是\3咯，由于用(?: …)来分组滴，只管分组，而不引用，切记切记。

对(?: …)的测试demo以下：

--匹配位置--

在前面咱们提到，建立正则对象时，可选字符m表示：多行模式，^和$锚除了匹配字符串的开头和结尾外，还匹配每行的开头和结尾。

那么这个^和$就是正则为咱们提供的匹配位置，即所谓的锚。

例如：

将/JavaScript/变为/^JavaScript/，就只匹配字符串中开头为JavaScript的啦，如匹配"JavaScriptxxx"中的JavaScript，而不匹配"xxxJavaScript"中的JavaScript。

正则表达式中的锚字符详情见下：

字符	含义
^	匹配字符串的开头
$	匹配字符串的结尾
\b	匹配一个词语的边界，指[a-zA-Z_0-9]以外的字符
\B	匹配非词语边界位置
(? = p)	正前向声明，exp1(?=exp2)，匹配后面是exp2的exp1
(? ! p)	反前向声明，exp1(?!exp2)，匹配后面不是exp2的exp1

^和$好理解，可是\b、(?=)、(?!)可能比较陌生，结合上表，咱们再来看看下面的demo就好啦。

对于\b的Demo以下：

对于(? = p)的Demo以下：

对于(? ! p)的Demo以下：

具体应用见下一页

更多详情见请继续阅读下一页的精彩内容： http://www.linuxidc.com/Linux/2016-08/134160p2.htm

正则在String类中的应用

类String支持四种利用正则表达式的方法。分别是search、replace、match和split方法。下面将一一讲述。

--String.search(regexp)--

search相对于其余三个方法，是应用正则最简单的方法啦，做用就是根据参数regexp查找相应匹配模式。

具体以下：

方法search中的参数为正则表达式对象，假若咱们赋予的值不是正则表达式对象，而是字符串，那么search在内部首先得将传入的字符串转换成正则表达式对象，而后再给予匹配。匹配始终从字符串的初始位置开始，当找到第一个与正则表达式相匹配的字符时，就中止匹配，并返回匹配到的子串的起始位置。若是没有找到就返回-1。

注意：search找到第一个匹配结果后，就中止，并不会继续查找，so，标志g对它无效！

Demo以下：

--String.split(delimiter, limit)--

方法split，根据传入的delimiter参数，分割字符串，并返回一个分割后的字符串数组。

例如：

指定的分隔符delimiter，能够是字符串，也能够是正则表达式。如上所示。

咦，不是还有一个参数limit吗？它的做用为啥子呢？

这个可选参数limit，为整数，限定返回数组的最大长度。以下：

--String.replace(match, replacement)--

replace方法的做用为：根据match指定的规则，查找字符串，若是找到匹配结果，就用第二个参数replacement去替换。假若match为regexp对象，并指定了全局搜索标志g，那么将对全局查找替换，而不是在找到第一个匹配后，就中止操做。

So，参数match能够是RegExp对象，也能够是字符串，可是字符串由于没有规定全局搜索标志，因此若是match为字符串，那么当找到第一个匹配替换后，就中止查找。

例如：

你觉得replace方法就这么结束了？No，No，No。

还记得在前面一页中提到的括弧（）的做用么？

括弧能够将须要在后续使用的内容，做为子表达式括起来，在正则表达式中能够利用反斜杠\加数字，对前面的子表达式引用。replace方法也有这么一功能，固然前提是参数match为RegExp对象，它是使用美圆符$加相应的数字来引用，数字计算规则不变。

以下：

另，replace的第二个参数replacement不只能够为字符串，还能够是函数哦。当字符串中与参数match匹配成功后，就调用这个replacement回调函数。

如我想将字符串中的全部单词的第一个字母都大写，那么利用replacement函数能够这样：

是否是很屌。

咱们再细看看，这个回调函数的参数都有哪些，以下：

　　第一个参数就是匹配字符串，如上面的demo；

　　第二个参数是正则表达式中的子表达式（括号啦），没有子表达式，则没有该参数

　　第三个参数是整数，声明了匹配项出如今字符串中的位置；

　　第四个参数则是原字符串

--String.match(regexp)--

match方法返回与regexp相匹配结果的数组。参数regexp为RegExp对象，若是传入的参数不为RegExp对象，则match内部首先将其转换成RegExp对象。

注意：match方法返回的数组，与传入的参数regexp带不带全局搜索标志g，区别是很是大的。下面将进行说明。

一、若是regexp不带标志g，那么match方法根据参数regexp匹配到首个子串后，就将中止继续往下查找匹配；若是一个匹配也没找到就返回null。

以下：

你觉得就这么结束了么？No，No，No。

强大之处在于：若是你正则表达式中有子表达式（括号啦），那么返回的数组arr中，还包括这些与子表达式匹配的结果哦。arr[0]为匹配的文本，arr[1]为匹配的第一个子表达式，如此类推。

以下：

二、若是regexp带有执行全局搜索标志g，那么match方法将返回全部与参数regexp匹配的全部结果的数组。

以下：

RegExp对象中exec和test方法

RegExp对象定义了两个用于执行模式匹配操做的方法：exec和test。下面将一一讲述。

--RegExp.exec(string)--

exec方法检索参数string，当有匹配结果时，返回一个数组。没有找到匹配结果时，则返回null。exec方法的调用分为两种：

一、当RegExp中没有全局搜索标志g时，那么返回结果和String.match方法同样：返回的数组arr中，arr[0]为匹配的文本，若是有子表达式，那么arr[1]…就表示这些子表达式。而且将lastIndex置为0。注：lastIndex为RegExp对象的属性。

以下：

二、当RegExp中有全局搜索标志g时，那么返回的结果仍是和String.match同样。咦，什么套路？

不过，区别在于它会将RegExp对象的属性lastIndex置为紧接着上次找到匹配文本的字符位置，而不是为0。

以下：

那这点不一样有什么用呢？

那就得看看lastIndex的做用咯。每次当，利用exec或者test方法检索字符串时，他们都是从lastIndex的位置为起点向后检索。

以下：

因此，当RegExp中有全局搜索标志g时，它将lastIndex置为紧接着上次找到匹配文本的字符位置，那么咱们就能够循环检索字符串了。

以下：

--RegExp.test(string)--

test方法检测参数string字符串，是否含有匹配文本，若是有，则返回true，不然为false。RegExp中带没带全局搜索标志g的区别在于，对象的属性lastIndex。若是不带g，则lastIndex为0，不然将lastIndex置为紧接着上次找到匹配文本的字符位置。

以下：

好了，梳理JavaScipt中的正则表达式就到此结束啦~

本文永久更新连接地址：http://www.linuxidc.com/Linux/2016-08/134160.htm