高性能的正则表达式效率优化

前言正则表达式

编写高性能的正则表达式，有以下几条规则，这几条规则是本人总结出来的：性能

一、使用正确的边界匹配器（^、$、\b、\B等）优化

二、使用具体的元字符、字符类（\d、\w、\s等）指针

三、使用正确的量词（+、*、?、{n,m}）字符串

四、使用非捕获组、原子组域名

五、注意量词的嵌套 it

其实正则表达式的不少优化技巧都是围绕着“减小回溯”这样一个原则进行优化的。class

至于什么是“回溯”，笔者就不在这里重复了，如下经过具体的例子理解这样的过程。效率

示例email

1、如下是一则匹配电子邮件地址的正则表达式：

^\w+([\.-]?\w+)*@\w+([\.-]?\w+)*(\.\w{2,3})+$

先一步步的解析：

一、^\w+：表示必须以字符开始，且是一个或者多个；

二、([\.-]?\w+)*中的“[\.-]?”表示匹配“.”或者“-”，零次或者一次；

三、([\.-]?\w+)*中的“\w+”则表示匹配一个或者多个的字符；

四、([\.-]?\w+)*整个则表示匹配.xxx、-xxx或者xxx这样的字符，且零次或者屡次；

五、第1-4步，则匹配sunny或者sunny.yang这样的字符；

六、“@”则是具体元，匹配具体的@；

七、 \w+：则表示匹配的一个或者多个的字符，由于email不可能这样嘛：sunny@.gmail.com；

八、 ([\.-]?\w+)*：则跟第2-4步同样，匹配.16三、-lib、.gd这样的字符，且零次或者屡次；

九、 (\.\w{2,3})+$：则匹配.com、.cc这样结尾的域名，且由于\w{2,3}限定了长度必须为2-3位，因此不能匹配.c、.n这样的字符。

乍看这样一个解析过程没问题，逻辑正确，但其实暗藏不少问题，看看如下的一个匹配图，backtrack则表示回溯（使用RegexBuddy能够很清晰的看到这过程）

整个成功的匹配过程经历了55步，咱们先分析下整个匹配过程：

一、图中的第1和2步，匹配^\w+，匹配成功，匹配了“admin”;

二、图中第3步，匹配[\.-]?，固然因为不存在“.”和“-”，所以没匹配上具体的字符，但又因为“?”的限定，能够匹配零或者一次，所以这个子表达式匹配成功，虽然没匹配上具体的字符。

三、图中第4步，匹配\w+，因为“+”限定一个或者多个以上字符，但后续已经没[a-zA-Z0-9]能够匹配了，所以产生回溯，回溯到上次匹配成功的位置，也就admin；

四、图中第5步，由于上一步产生了回溯，因此“[\.-]?\w+”匹配了零次，因为([\.-]?\w+)*中限定零次或者屡次，所以也匹配成功，也没匹配上具体的字符；

如下步骤，匹配该过程：

^\w+([\.-]?\w+)*@\w+([\.-]?\w+)*(\.\w{2,3})+$

五、图中第6步，匹配了“@” ，第7步匹配了“\w+”，即匹配了“open”；

六、图中第8-13步，匹配“([\.-]?\w+)*” ，匹配了“-lib”、“.com”，匹配“.com”可能与咱们指望不相符，咱们指望这子表达式匹配的是www.xx.gd.cn中的“.gd”；

七、图中第7-10步，匹配了open-lib，第7-13步则匹配了open-lib.com；

八、由于“([\.-]?\w+)*”中的量词是“*”，则继续重复这个过程；

九、图中第14步，匹配“([\.-]?\w+)*”中的“[\.-]?”，由于此时指针已经位于@open-lib.com以后了，但因为量词“?”，所以也匹配成功，但没匹配上字符，也没字符可匹配；

十、图中第15步，匹配“([\.-]?\w+)*”中的“\w+”，此时指针仍位于字符串末尾，没任何字符能匹配，因此匹配失败，产生回溯，回到上次成功的位置，即图中的第13步，继续下个表达式的匹配；

十一、图中第16步，匹配(\.\w{2,3})+中的“\.”，因为没有任何字符能匹配，匹配失败，进行回溯；

十二、图中第17步，(\.\w{2,3})+中量词“+”，表示该表达式必须匹配一次或者屡次，因为上一步匹配失败了，因此匹配零次，但不符合一次或者屡次的限定，所以继续回溯；

1三、因为上一步匹配失败，须要进行回溯，所以表达式没有更多的分支了，只能将指针回退一个字符，回溯上次成功的位置，即([\.-]?\w+)*中\w+的位置（这是上次产生分支的位置）；

1四、图中剩下的步骤，就重复着匹配([\.-]?\w+)*，回退字符，匹配(\.\w{2,3})+这样的过程，直到匹配成功。

2、如下看看另一则一样匹配邮件地址的正则表达式：

^\w+([-\.]\w+)*@\w+([-\.]\w+)*\.\w+([-\.]\w+)*$

这个正则跟上面的看起来貌似差很少，不过细看仍是有区别的，也先一步步来解析：

一、^\w+：表示必须以字符开始，且是一个或者多个（这一步与上面的同样）；

二、 ([-\.]\w+)*中的“[-\.]”表示匹配“-”或者“.”；

三、 ([-\.]\w+)*中的“\w+”则表示匹配一个或者多个的字符；

四、([-\.]\w+)*整个则表示匹配.xxx、-xxx这样的字符，且零次或者屡次；

五、第1-4步，则匹配sunny或者sunny.yang这样的字符；

六、“@”则是具体元，匹配具体的“@”；

七、 \w+：则表示匹配的一个或者多个的字符，由于email不可能这样嘛：sunny@.gmail.com；

八、([-\.]\w+)*：则跟第2-4步同样，匹配.16三、-lib、.gd这样的字符，且零次或者屡次；

九、“\.”则是具体元，匹配“.”；

十、\w+：则匹配一个或者多个字符；

十一、([-\.]\w+)*：则匹配“.com”、“-lib”、“.c”这样的字符，且能够零次或者屡次；

十二、$ ：则表示结尾

乍看这个正则的步骤过程貌似比上一则长，其实否则，同时这个正则也存在着问题，先看看匹配图，一样backtrack表示回溯：

对的，你没看错，整个正确的匹配过程用了19步，对比前面的55步，简直天与地的差异。，咱们继续分析下匹配过程：

一、图中的第1和2步，匹配^\w+，匹配成功，匹配了“admin”;

二、图中第3步，匹配[-\.]，固然因为不存在“.”和“-”，所以没匹配上具体的字符，也没具体的量词容许匹配零次，因此不用继续往下匹配了，所以直接产生了回溯；

三、图中第4步，由于上一步产生了回溯，因此“[-\.]\w+”匹配了零次，因为([-\.]\w+)*中限定零次或者屡次，所以也匹配成功，也没匹配上具体的字符；

如下步骤，匹配该过程：

^\w+([-\.]\w+)*@\w+([-\.]\w+)*\.\w+([-\.]\w+)*$

四、图中第6步\w+，匹配了open；

五、图中第7-12步匹配([-\.]\w+)*，匹配了“-lib”和“.com”；

六、由于“([-\.]\w+)*”中的量词是“*”，则继续重复这个过程；

七、图第13步，匹配([-\.]\w+)* ，由于此时指针已经位于@open-lib.com以后了，也没具体的量词容许匹配零次，所以匹配失败，回溯到上次成功的位置；

八、图第14步，匹配 ([-\.]\w+)*$中的“[-\.]”，此时指针仍位于字符串末尾，没任何字符能匹配，因此匹配失败，产生回溯，回到上次成功且还没尝试过的位置，即图中的第9步；

九、通过上面的回溯，指针已经位于@open-lib以后的位置了；

十、图第15步匹配了“.”，第16步\w+则匹配了“com” ；

十一、图第17步匹配([-\.]\w+)*，因为此时指针又位于字符串末尾，所以[-\.]部分没匹配上任何字符，所以产生回溯；

十二、图第18步，因为 ([-\.]\w+)*的量词是“*”，表示匹配零次或屡次，虽然子表达式[-\.]匹配失败，因此整个表达式匹配了零次，也是匹配成功；

1三、最后一步第19步，“$”表示末尾匹配，由于此时指针位于字符串末尾，故符合，所以也匹配成功。

分析

整个匹配过程关键优化地方，仍是回溯，两个示例表达式看起来相近，匹配过程也部分相似，但两个例子的效率却如此大的分别，如今来分析一下形成回溯的缘由。

对比下两个表达式不一样的部分：

^\w+([\.-]?\w+)*@\w+([\.-]?\w+)*(\.\w{2,3})+$

^\w+([\.-]\w+)*@\w+([\.-]\w+)*\.\w+([-\.]\w+)*$