正则表达式的先行断言(lookahead)和后行断言(lookbehind)

时间 2021-01-30

标签 html 前端正则表达式 express ide 测试 this 3d 指针 htm 栏目正则表达式繁體版

原文原文链接

正则表达式的先行断言和后行断言一共有4种形式：
(?=pattern) 零宽正向先行断言(zero-width positive lookahead assertion)
(?!pattern) 零宽负向先行断言(zero-width negative lookahead assertion)
(?<=pattern) 零宽正向后行断言(zero-width positive lookbehind assertion)
(?<!pattern) 零宽负向后行断言(zero-width negative lookbehind assertion)
这里面的pattern是一个正则表达式。html

如同^表明开头，$表明结尾，\b表明单词边界同样，先行断言和后行断言也有相似的做用，它们只匹配某些位置，在匹配过程当中，不占用字符，因此被称为“零宽”。所谓位置，是指字符串中(每行)第一个字符的左边、最后一个字符的右边以及相邻字符的中间（假设文字方向是头左尾右）。
下面分别举例来讲明这4种断言的含义。前端

(?=pattern) 正向先行断言
表明字符串中的一个位置，紧接该位置以后的字符序列可以匹配pattern。
例如对”a regular expression”这个字符串，要想匹配regular中的re，但不能匹配expression中的re，能够用”re(?=gular)”，该表达式限定了re右边的位置，这个位置以后是gular，但并不消耗gular这些字符，将表达式改成”re(?=gular).”，将会匹配reg，元字符.匹配了g，括号这一砣匹配了e和g之间的位置。正则表达式

(?!pattern) 负向先行断言
表明字符串中的一个位置，紧接该位置以后的字符序列不能匹配pattern。
例如对”regex represents regular expression”这个字符串，要想匹配除regex和regular以外的re，能够用”re(?!g)”，该表达式限定了re右边的位置，这个位置后面不是字符g。负向和正向的区别，就在于该位置以后的字符可否匹配括号中的表达式。express

(?<=pattern) 正向后行断言
表明字符串中的一个位置，紧接该位置以前的字符序列可以匹配pattern。
例如对”regex represents regular expression”这个字符串，有4个单词，要想匹配单词内部的re，但不匹配单词开头的re，能够用”(?<=\w)re”，单词内部的re，在re前面应该是一个单词字符。之因此叫后行断言，是由于正则表达式引擎在匹配字符串和表达式时，是从前向后逐个扫描字符串中的字符，并判断是否与表达式符合，当在表达式中遇到该断言时，正则表达式引擎须要往字符串前端检测已扫描过的字符，相对于扫描方向是向后的。ide

(?<!pattern) 负向后行断言
表明字符串中的一个位置，紧接该位置以前的字符序列不能匹配pattern。
例如对”regex represents regular expression”这个字符串，要想匹配单词开头的re，能够用”(?<!\w)re”。单词开头的re，在本例中，也就是指不在单词内部的re，即re前面不是单词字符。固然也能够用”\bre”来匹配。测试

对于这4个断言的理解，能够从两个方面入手：
1.关于先行(lookahead)和后行(lookbehind)：正则表达式引擎在执行字符串和表达式匹配时，会从头至尾（从前到后）连续扫描字符串中的字符，设想有一个扫描指针指向字符边界处并随匹配过程移动。先行断言，是当扫描指针位于某处时，引擎会尝试匹配指针还未扫过的字符，先于指针到达该字符，故称为先行。后行断言，引擎会尝试匹配指针已扫过的字符，后于指针到达该字符，故称为后行。
2.关于正向(positive)和负向(negative)：正向就表示匹配括号中的表达式，负向表示不匹配。this

对这4个断言形式的记忆：
1.先行和后行：后行断言(?<=pattern)、(?<!pattern)中，有个小于号，同时也是箭头，对于自左至右的文本方向，这个箭头是指向后的，这也比较符合咱们的习惯。把小于号去掉，就是先行断言。
2.正向和负向：不等于(!=)、逻辑非(!)都是用!号来表示，因此有!号的形式表示不匹配、负向；将!号换成=号，就表示匹配、正向。3d

咱们常常用正则表达式来检测一个字符串中包含某个子串，要表示一个字符串中不包含某个字符或某些字符也很容易，用[^...]形式就能够了。要表示一个字符串中不包含某个子串（由字符序列构成）呢？
用[^...]这种形式就不行了，这时就要用到（负向）先行断言或后行断言、或同时使用。
例如判断一句话中包含this，但不包含that。
包含this比较好办，一句话中不包含that，能够认为这句话中每一个字符的前面都不是that或每一个字符的后面都不是that。正则表达式以下：
^((?<!that).)*this((?<!that).)*$ 或 ^(.(?!that))*this(.(?!that))*$
对于”this is the case”这句话，两个表达式都可以匹配成功，而”note that this is the case”都匹配失败。
在通常状况下，这两个表达式基本上都可以知足要求了。考虑极端状况，如一句话以that开头、以that结尾、that和this连在一块儿时，上述表达式就可能不胜任了。
如”note thatthis is the case”或者”this is the case, not that”等。
只要灵活运用这几个断言，就很容易解决：
^(.(?<!that))*this(.(?<!that))*$
^(.(?<!that))*this((?!that).)*$
^((?!that).)*this(.(?<!that))*$
^((?!that).)*this((?!that).)*$
这4个正则表达式测试上述的几句话，结果都可以知足要求。指针

上述4种断言，括号里的pattern自己是一个正则表达式。但对2种后行断言有所限制，在Perl和Python中，这个表达式必须是定长(fixed length)的，即不能使用*、+、?等元字符，如(?<=abc)没有问题，但(?<=a*bc)是不被支持的，特别是当表达式中含有|链接的分支时，各个分支的长度必须相同。之因此不支持变长表达式，是由于当引擎检查后行断言时，没法肯定要回溯多少步。Java支持?、{m}、{n,m}等符号，但一样不支持*、+字符。Javascript干脆不支持后行断言，不过通常来讲，这不是太大的问题。参见这里。htm

试验例子

sole sorry chilly high tight laughter

匹配h

匹配后面是t的h

匹配后面不是t的h

匹配前面是g的h

匹配前面不是g的h

先行断言和后行断言某种程度上就比如使用if语句对匹配的字符先后作判断验证。