深刻浅出之正则表达式二

前言:
       本文是前一片文章《深刻浅出之正则表达式一》的续篇,在本文中讲述了正则表达式中的组与向后引用,先前向后查看,条件测试,单词边界,选择符等表达式及例子,并分析了正则引擎在执行匹配时的内部机理。
       本文是Jan GoyvaertsRegexBuddy写的教程的译文,版权归原做者全部,欢迎转载。可是为了尊重原做者和译者的劳动,请注明出处!谢谢!html

 

 

9.      单词边界

 

元字符<<\b>>也是一种对位置进行匹配的“锚”。这种匹配是0长度匹配。程序员

4种位置被认为是“单词边界”:正则表达式

1)        在字符串的第一个字符前的位置(若是字符串的第一个字符是一个“单词字符”)编程

2)        在字符串的最后一个字符后的位置(若是字符串的最后一个字符是一个“单词字符”)缓存

3)        在一个“单词字符”和“非单词字符”之间,其中“非单词字符”紧跟在“单词字符”以后编程语言

4)        在一个“非单词字符”和“单词字符”之间,其中“单词字符”紧跟在“非单词字符”后面ide

 “单词字符”是能够用“\w”匹配的字符,“非单词字符”是能够用“\W”匹配的字符。在大多数的正则表达式实现中,“单词字符”一般包括<<[a-zA-Z0-9_]>>函数

例如:<<\b4\b>>可以匹配单个的4而不是一个更大数的一部分。这个正则表达式不会匹配“44”中的4测试

换种说法,几乎能够说<<\b>>匹配一个“字母数字序列”的开始和结束的位置。优化

 

“单词边界”的取反集为<<\B>>,他要匹配的位置是两个“单词字符”之间或者两个“非单词字符”之间的位置。

 

·        深刻正则表达式引擎内部

让咱们看看把正则表达式<<\bis\b>>应用到字符串“This island is beautiful”。引擎先处理符号<<\b>>。由于\b0长度 ,因此第一个字符T前面的位置会被考察。由于T是一个“单词字符”,而它前面的字符是一个空字符(void),因此\b匹配了单词边界。接着<<i>>和第一个字符“T”匹配失败。匹配过程继续进行,直到第五个空格符,和第四个字符“s”之间又匹配了<<\b>>。然而空格符和<<i>>不匹配。继续向后,到了第六个字符“i”,和第五个空格字符之间匹配了<<\b>>,而后<<is>>和第6、第七个字符都匹配了。然而第八个字符和第二个“单词边界”不匹配,因此匹配又失败了。到了第13个字符i,由于和前面一个空格符造成“单词边界”,同时<<is>>和“is”匹配。引擎接着尝试匹配第二个<<\b>>。由于第15个空格符和“s”造成单词边界,因此匹配成功。引擎“急着”返回成功匹配的结果。

 

10.  选择符

正则表达式中“|”表示选择。你能够用选择符匹配多个可能的正则表达式中的一个。

若是你想搜索文字“cat”或“dog”,你能够用<<cat|dog>>。若是你想有更多的选择,你只要扩展列表<<cat|dog|mouse|fish>>

选择符在正则表达式中具备最低的优先级,也就是说,它告诉引擎要么匹配选择符左边的全部表达式,要么匹配右边的全部表达式。你也能够用圆括号来限制选择符的做用范围。如<<\b(cat|dog)\b>>,这样告诉正则引擎把(cat|dog)当成一个正则表达式单位来处理。

·        注意正则引擎的“急于表功”性

正则引擎是急切的,当它找到一个有效的匹配时,它会中止搜索。所以在必定条件下,选择符两边的表达式的顺序对结果会有影响。假设你想用正则表达式搜索一个编程语言的函数列表:GetGetValueSetSetValue。一个明显的解决方案是<<Get|GetValue|Set|SetValue>>。让咱们看看当搜索SetValue时的结果。

由于<<Get>><<GetValue>>都失败了,而<<Set>>匹配成功。由于正则导向的引擎都是“急切”的,因此它会返回第一个成功的匹配,就是“Set”,而不去继续搜索是否有其余更好的匹配。

和咱们指望的相反,正则表达式并无匹配整个字符串。有几种可能的解决办法。一是考虑到正则引擎的“急切”性,改变选项的顺序,例如咱们使用<<GetValue|Get|SetValue|Set>>,这样咱们就能够优先搜索最长的匹配。咱们也能够把四个选项结合起来成两个选项:<<Get(Value)?|Set(Value)?>>。由于问号重复符是贪婪的,因此SetValue总会在Set以前被匹配。

一个更好的方案是使用单词边界:<<\b(Get|GetValue|Set|SetValue)\b>><<\b(Get(Value)?|Set(Value)?\b>>。更进一步,既然全部的选择都有相同的结尾,咱们能够把正则表达式优化为<<\b(Get|Set)(Value)?\b>>

 

 

11.  组与向后引用

把正则表达式的一部分放在圆括号内,你能够将它们造成组。而后你能够对整个组使用一些正则操做,例如重复操做符。

要注意的是,只有圆括号“()”才能用于造成组。“[]”用于定义字符集。“{}”用于定义重复操做。

当用“()”定义了一个正则表达式组后,正则引擎则会把被匹配的组按照顺序编号,存入缓存。当对被匹配的组进行向后引用的时候,能够用“\数字”的方式进行引用。<<\1>>引用第一个匹配的后向引用组,<<\2>>引用第二个组,以此类推,<<\n>>引用第n个组。而<<\0>>则引用整个被匹配的正则表达式自己。咱们看一个例子。

假设你想匹配一个HTML标签的开始标签和结束标签,以及标签中间的文本。好比<B>This is a test</B>,咱们要匹配<B></B>以及中间的文字。咱们能够用以下正则表达式:“<([A-Z][A-Z0-9]*)[^>]*>.*?</\1>

首先,“<”将会匹配“<B>”的第一个字符“<”。而后[A-Z]匹配B[A-Z0-9]*将会匹配0到屡次字母数字,后面紧接着0到多个非“>”的字符。最后正则表达式的“>”将会匹配“<B>”的“>”。接下来正则引擎将对结束标签以前的字符进行惰性匹配,直到遇到一个“</”符号。而后正则表达式中的“\1”表示对前面匹配的组“([A-Z][A-Z0-9]*)”进行引用,在本例中,被引用的是标签名“B”。因此须要被匹配的结尾标签为“</B>

你能够对相同的后向引用组进行屡次引用,<<([a-c])x\1x\1>>将匹配“axaxa”、“bxbxb”以及“cxcxc”。若是用数字形式引用的组没有有效的匹配,则引用到的内容简单的为空。

一个后向引用不能用于它自身。<<([abc]\1)>>是错误的。所以你不能将<<\0>>用于一个正则表达式匹配自己,它只能用于替换操做中。

后向引用不能用于字符集内部。<<(a)[\1b]>>中的<<\1>>并不表示后向引用。在字符集内部,<<\1>>能够被解释为八进制形式的转码。

向后引用会下降引擎的速度,由于它须要存储匹配的组。若是你不须要向后引用,你能够告诉引擎对某个组不存储。例如:<<Get(?:Value)>>。其中“(”后面紧跟的“?:”会告诉引擎对于组(Value),不存储匹配的值以供后向引用。

·        重复操做与后向引用

当对组使用重复操做符时,缓存里后向引用内容会被不断刷新,只保留最后匹配的内容。例如:<<([abc]+)=\1>>将匹配“cab=cab”,可是<<([abc])+=\1>>却不会。由于([abc])第一次匹配“c”时,“\1”表明“c”;而后([abc])会继续匹配“a”和“b”。最后“\1”表明“b”,因此它会匹配“cab=b”。

应用:检查重复单词--当编辑文字时,很容易就会输入重复单词,例如“the the”。使用<<\b(\w+)\s+\1\b>>能够检测到这些重复单词。要删除第二个单词,只要简单的利用替换功能替换掉“\1”就能够了。

 

 

·        组的命名和引用

PHPPython中,能够用<<(?P<name>group)>>来对组进行命名。在本例中,词法?P<name>就是对组(group)进行了命名。其中name是你对组的起的名字。你能够用(?P=name)进行引用。

.NET的命名组

.NET framework也支持命名组。不幸的是,微软的程序员们决定发明他们本身的语法,而不是沿用PerlPython的规则。目前为止,尚未任何其余的正则表达式实现支持微软发明的语法。

下面是.NET中的例子:

(?<first>group)(?’second’group)

正如你所看到的,.NET提供两种词法来建立命名组:一是用尖括号“<>”,或者用单引号“’’”。尖括号在字符串中使用更方便,单引号在ASP代码中更有用,由于ASP代码中“<>”被用做HTML标签。

要引用一个命名组,使用\k<name>\k’name’.

当进行搜索替换时,你能够用“${name}”来引用一个命名组。

 

12.  正则表达式的匹配模式

本教程所讨论的正则表达式引擎都支持三种匹配模式:

<</i>>使正则表达式对大小写不敏感,

<</s>>开启“单行模式”,即点号“.”匹配新行符

<</m>>开启“多行模式”,即“^”和“$”匹配新行符的前面和后面的位置。

 

·        在正则表达式内部打开或关闭模式

若是你在正则表达式内部插入修饰符(?ism),则该修饰符只对其右边的正则表达式起做用。(?-i)是关闭大小写不敏感。你能够很快的进行测试。<<(?i)te(?-i)st>>应该匹配TEst,可是不能匹配teSTTEST.

 

13.  原子组与防止回溯

在一些特殊状况下,由于回溯会使得引擎的效率极其低下。

让咱们看一个例子:要匹配这样的字串,字串中的每一个字段间用逗号作分隔符,第12个字段由P开头。

咱们容易想到这样的正则表达式<<^(.*?,){11}P>>。这个正则表达式在正常状况下工做的很好。可是在极端状况下,若是第12个字段不是由P开头,则会发生灾难性的回溯。如要搜索的字串为“1,2,3,4,5,6,7,8,9,10,11,12,13”。首先,正则表达式一直成功匹配直到第12个字符。这时,前面的正则表达式消耗的字串为“1,2,3,4,5,6,7,8,9,10,11,”,到了下一个字符,<<P>>并不匹配“12”。因此引擎进行回溯,这时正则表达式消耗的字串为“1,2,3,4,5,6,7,8,9,10,11”。继续下一次匹配过程,下一个正则符号为点号<<.>>,能够匹配下一个逗号“,”。然而<<>>并不匹配字符“12”中的“1”。匹配失败,继续回溯。你们能够想象,这样的回溯组合是个很是大的数量。所以可能会形成引擎崩溃。

用于阻止这样巨大的回溯有几种方案:

一种简单的方案是尽量的使匹配精确。用取反字符集代替点号。例如咱们用以下正则表达式<<^([^,\r\n]*,){11}P>>,这样可使失败回溯的次数降低到11次。

另外一种方案是使用原子组。

原子组的目的是使正则引擎失败的更快一点。所以能够有效的阻止海量回溯。原子组的语法是<<(?>正则表达式)>>。位于(?>)之间的全部正则表达式都会被认为是一个单一的正则符号。一旦匹配失败,引擎将会回溯到原子组前面的正则表达式部分。前面的例子用原子组能够表达成<<^(?>(.*?,){11})P>>。一旦第十二个字段匹配失败,引擎回溯到原子组前面的<<^>>

 

14.  向前查看与向后查看

Perl 5 引 入了两个强大的正则语法:“向前查看”和“向后查看”。他们也被称做“零长度断言”。他们和锚定同样都是零长度的(所谓零长度即指该正则表达式不消耗被匹 配的字符串)。不一样之处在于“先后查看”会实际匹配字符,只是他们会抛弃匹配只返回匹配结果:匹配或不匹配。这就是为何他们被称做“断言”。他们并不实 际消耗字符串中的字符,而只是断言一个匹配是否可能。

几乎本文讨论的全部正则表达式的实现都支持“向前向后查看”。惟一的一个例外是Javascript只支持向前查看。

·        确定和否认式的向前查看

如咱们前面提过的一个例子:要查找一个q,后面没有紧跟一个u。也就是说,要么q后面没有字符,要么后面的字符不是u。采用否认式向前查看后的一个解决方案为<<q(?!u)>>。否认式向前查看的语法是<<(?!查看的内容)>>

确定式向前查看和否认式向前查看很相似:<<(?=查看的内容)>>

若是在“查看的内容”部分有组,也会产生一个向后引用。可是向前查看自己并不会产生向后引用,也不会被计入向后引用的编号中。这是由于向前查看自己是会被抛弃掉的,只保留匹配与否的判断结果。若是你想保留匹配的结果做为向后引用,你能够用<<(?=(regex))>>来产生一个向后引用。

·        确定和否认式的前后查看

向后查看和向前查看有相同的效果,只是方向相反

否认式向后查看的语法是:<<(?<!查看内容)>>

确定式向后查看的语法是:<<(?<=查看内容)>>

咱们能够看到,和向前查看相比,多了一个表示方向的左尖括号。

例:<<(?<!a)b>>将会匹配一个没有“a”做前导字符的“b”。

值得注意的是:向前查看从当前字符串位置开始对“查看”正则表达式进行匹配;向后查看则从当前字符串位置开始前后回溯一个字符,而后再开始对“查看”正则表达式进行匹配。

 

·        深刻正则表达式引擎内部

让咱们看一个简单例子。

把正则表达式<<q(?!u)>>应用到字符串“Iraq”。正则表达式的第一个符号是<<q>>。正如咱们知道的,引擎在匹配<<q>>之前会扫过整个字符串。当第四个字符“q”被匹配后,“q”后面是空字符(void)。而下一个正则符号是向前查看。引擎注意到已经进入了一个向前查看正则表达式部分。下一个正则符号是<<u>>,和空字符不匹配,从而致使向前查看里的正则表达式匹配失败。由于是一个否认式的向前查看,意味着整个向前查看结果是成功的。因而匹配结果“q”被返回了。

咱们在把相同的正则表达式应用到“quit”。<<q>>匹配了“q”。下一个正则符号是向前查看部分的<<u>>,它匹配了字符串中的第二个字符“i”。引擎继续走到下个字符“i”。然而引擎这时注意到向前查看部分已经处理完了,而且向前查看已经成功。因而引擎抛弃被匹配的字符串部分,这将致使引擎回退到字符“u”。

由于向前查看是否认式的,意味着查看部分的成功匹配致使了整个向前查看的失败,所以引擎不得不进行回溯。最后由于再没有其余的“q”和<<q>>匹配,因此整个匹配失败了。

为了确保你能清楚地理解向前查看的实现,让咱们把<<q(?=u)i>>应用到“quit”。<<q>>首先匹配“q”。而后向前查当作功匹配“u”,匹配的部分被抛弃,只返回能够匹配的判断结果。引擎从字符“i”回退到“u”。因为向前查当作功了,引擎继续处理下一个正则符号<<i>>。结果发现<<i>>和“u”不匹配。所以匹配失败了。因为后面没有其余的“q”,整个正则表达式的匹配失败了。

 

·        更进一步理解正则表达式引擎内部机制

让咱们把<<(?<=a)b>>应用到“thingamabob”。引擎开始处理向后查看部分的正则符号和字符串中的第一个字符。在这个例子中,向后查看告诉正则表达式引擎回退一个字符,而后查看是否有一个“a”被匹配。由于在“t”前面没有字符,因此引擎不能回退。所以向后查看失败了。引擎继续走到下一个字符“h”。再一次,引擎暂时回退一个字符并检查是否有个“a”被匹配。结果发现了一个“t”。向后查看又失败了。

向后查看继续失败,直到正则表达式到达了字符串中的“m”,因而确定式的向后查看被匹配了。由于它是零长度的,字符串的当前位置仍然是“m”。下一个正则符号是<<b>>,和“m”匹配失败。下一个字符是字符串中的第二个“a”。引擎向后暂时回退一个字符,而且发现<<a>>不匹配“m”。

在下一个字符是字符串中的第一个“b”。引擎暂时性的向后退一个字符发现向后查看被知足了,同时<<b>>匹配了“b”。所以整个正则表达式被匹配了。做为结果,正则表达式返回字符串中的第一个“b”。

·        向前向后查看的应用

咱们来看这样一个例子:查找一个具备6位字符的,含有“cat”的单词。

首先,咱们能够不用向前向后查看来解决问题,例如:

<< cat\w{3}|\wcat\w{2}|\w{2}cat\w|\w{3}cat>>

足够简单吧!可是当需求变成查找一个具备6-12位字符,含有“cat”,“dog”或“mouse”的单词时,这种方法就变得有些笨拙了。

咱们来看看使用向前查看的方案。在这个例子中,咱们有两个基本需求要知足:一是咱们须要一个6位的字符,二是单词含有“cat”。

知足第一个需求的正则表达式为<<\b\w{6}\b>>。知足第二个需求的正则表达式为<<\b\w*cat\w*\b>>

把二者结合起来,咱们能够获得以下的正则表达式:

     <<(?=\b\w{6}\b)\b\w*cat\w*\b>>

具体的匹配过程留给读者。可是要注意的一点是,向前查看是不消耗字符的,所以当判断单词知足具备6个字符的条件后,引擎会从开始判断前的位置继续对后面的正则表达式进行匹配。

最后做些优化,能够获得下面的正则表达式:

<<\b(?=\w{6}\b)\w{0,3}cat\w*>>

 

15.  正则表达式中的条件测试

条件测试的语法为<<(?ifthen|else)>>。“if”部分能够是向前向后查看表达式。若是用向前查看,则语法变为:<<(?(?=regex)then|else)>>,其中else部分是可选的。

若是if部分为true,则正则引擎会试图匹配then部分,不然引擎会试图匹配else部分。

须要记住的是,向前前后查看并不实际消耗任何字符,所以后面的thenelse部分的匹配时从if测试前的部分开始进行尝试。

 

16.  为正则表达式添加注释

在正则表达式中添加注释的语法是:<<(?#comment)>>

例:为用于匹配有效日期的正则表达式添加注释:

 (?#year)(19|20)\d\d[- /.](?#month)(0[1-9]|1[012])[- /.](?#day)(0[1-9]|[12][0-9]|3[01])

引自:http://www.cnblogs.com/dragon/archive/2006/05/09/394923.html