正则指引之量词

时间 2019-11-12

原文原文链接

通常形式javascript

假如咱们要验证邮政编码：201203，100858，因此用正则表达式来表示就是 \d\d\d\d\d\d，只有同时知足“长度是6个字符”和“每一个字符都是数字”两个条件，匹配才成功。虽然这不难理解，但 \d 重复6次，读写都不方便。为此，正则表达式提供了量词（quantifier）。那么上面的例子就能够简写为 \d{6}，它使用阿拉伯数字，更简洁也更直观。html

//使用量词减化字符组
String text = "510850";
Pattern p = Pattern.compile("\\d{6}");
Matcher m = p.matcher(text);
System.out.println(m.matches());    //true

量词还能够表示不肯定的长度，其通用形式是{m,n}，其中m和n是两个数字（有些人习惯在代码中的逗号以后添加空格，这样更好看，可是量词中的逗号以后毫不能有空格），它限定以前的元素可以出现的次数，m是下限，n是上限（均为闭区间）。好比 \d{4,6}，就表示这个数字字符串的长度最短是4个字符，最长是6个字符。若是不肯定长度的上限，也能够省略，只指定下限，写成 \d{n,}，好比 \d{4,}表示“数字字符串的长度必须在4个字符以上”。java

量词	说明
{n}	以前的元素必须出现n次
{m,n}	以前的元素最少出现m次，最多出现n次
{m,}	以前的元素最少出现m次，出现次数无上限
{0,n}	以前的元素能够不出现，也能够出现，最多出现n次

经常使用量词正则表达式

{m,n}是通用形式的量词，正则表达式还有三个经常使用量词，分别是 +，?，* 。它们的形态虽然不一样于{m,n}，功能倒是相同的（也能够把它们理解为“量词简记法”），具体说明以下：测试

经常使用量词	{m,n}等价形式	说明
＊	{0,}	可能出现，也可能不出现，出现次数没有上限
＋	{1,}	至少出现1次，出现次数没有上限
？	{0,1}	至多出现一次，也可能不出现

在实际应用中，在不少状况下只须要表示这三种意思，因此经常使用量词的使用频率要高于{m,n}。编码

点号spa

前一节讲到了各类字符组，与它相关的还有一个特殊的元字符：点号（.）。通常文档都说，点号能够匹配“任意字符”，点号确实能够匹配“任意字符”，常见的数字，字母，各类符号均可以匹配，但有一个字符不能由点号匹配，就是换行符 \n。这个字符平时看不见，却存在，并且在处理时并不能忽略。翻译

若是非要匹配“任意字符”，有两种办法：能够指定使用单行匹配模式，在这种模式下，点号能够匹配换行符；或者使用上一节介绍“自制”通配字符组 [\s\S] （也可使用 [\d\D]或[\w\W]），正好涵盖了全部字符。示例：code

//换行符的匹配
String text = "\n";
Pattern p = Pattern.compile("[\\d\\D]");
Matcher m = p.matcher(text);
System.out.println(m.matches());    //true
Pattern p1 = Pattern.compile(".");
Matcher m1 = p1.matcher(text);
System.out.println(m1.matches());      //false

滥用点号的问题htm

由于点号能匹配几乎全部的字符，因此实际应用中许多人图省事，随意使用 .* 或 .+ ，结果却事与愿违，下面以双引号字符串为例来讲明。咱们通常使用表达式 ”[^"]*" 匹配双引号字符串，而“图省事” 的作法是 “.*” 。一般这么用是没有问题的，但也可能有意外。

用“.*”匹配双引号字符串，不但能够匹配正常的双引号字符串“quoted string”，还能够匹配格式错误的字符串 "quoted string" and another" 。这是为何呢？缘由涉及正则表达式的匹配原理。

在正则表达式 “.*” 中，点号能够匹配任何字符，*表示能够匹配的字符串长度没有限制，因此 .* 在匹配过程结束之前，每遇到一个字符（除去没法匹配的 \n），.*均可以匹配，可是遇到第一个 " 时，究竟是匹配这个字符仍是忽略它，仍是将其交给以后的 " 来匹配呢？

答案是，具体选择取决于所使用的量词。在正则表达式中的量词分为几类，以前介绍的量词均可以归到一类，叫作匹配优先量词（贪婪量词）。匹配优先量词，顾名思义，就是在拿不许是否要匹配的时候，优先尝试匹配，而且记下这个状态，以备未来“反悔”。

来看表达式“.*”对字符串“quoted string”的匹配过程。一开始， “ 匹配 “ ，而后轮到字符q，.*能够匹配它，也能够不匹配，由于使用了匹配优先量词，因此.*先匹配q，而且记录下这个状态「q也多是.*不该该匹配的」；接下来是字符u，.*能够匹配它，也能够不匹配，由于使用了匹配优先量词，因此.*先匹配u，而且记录下这个状态『u也多是.*不该该匹配的』； .......如今轮到了字符g，.*能够匹配它，也能够不匹配，由于使用了匹配优先量词，因此 .*先匹配g，而且记录下这个状态『g也多是.*不该该匹配的』。最后是末尾的"，.*能够匹配它，也能够不匹配，由于使用了匹配优先量词，因此.*先匹配 “，而且记录下这个状态『'也多是.*不该该匹配的』。这时候，字符串以后已经没有字符了，但正则表达式中还有 ” 没有匹配，因此只能查询以前保存备用的状态，看看能不能退回几步，照顾 " 的匹配。查询到最近保存的状态是：「"也多是.*不该该匹配的」。因而让.* 反悔对 " 的匹配，把 " 交给 “ ，测试发现正好能匹配，因此整个匹配宣告成功。这个反悔的过程，专业术语叫作回溯（backtracking）。

忽略优先量词

好比，用一个正则表达式匹配下面这段HTML源代码：

<script type="text/javascript">
    alert("some punctuation <>/");
</script>

开头和结尾的tag都容易匹配，中间的代码要比较麻烦，由于点号. 不能匹配换行符，因此必须使用[\s\S]，[\d\D]或者[\w\W]。

<script type="text/javascript">[\s\S]*</script>

这个表达式确实能够匹配上面的Javascript代码。可是若是遇到更复杂的状况就会出错，好比针对下面这段HTML代码：

<script type="text/javascript">
alert("1");
</script>
<br />
<script type="text/javascript">
alert("2");
</script>

若是用上面的表达式来匹配这段HTML代码，会一次性匹配两段Javascript代码，甚至包含之间的非Javascript代码。按照匹配原理，[\s\S]＊先匹配全部的文本，回溯时交还最后的</script>，整个表达式的匹配就成功了，逻辑就是如此，无可改进。并且，这个问题也不能模仿以前双引号字符串匹配，用[^"]*区配<script...>和</script>之间的代码，由于排除型字符组只能排除单个字符，[^</script>]不能表示“不是</script>的字符串”。

换个角度来看，经过改变[\s\S]*的匹配策略解决问题：在不肯定是否要匹配的场合，先尝试不匹配的选择，测试正则表达式中后面的元素，若是失败，再退回来尝试 [\s\S]* 匹配，如此就没有问题了。循着这个思路，正则表达式中还提供了忽略优先量词（lazy quantifier 或 reluctant quantifier，也就有翻译为懒惰量词），若是不肯定是否要匹配，忽略优先量词会选择“不匹配”的状态，再尝试表达式中以后的元素，若是尝试失败，再回溯，选择以前保存的“匹配”的状态。

对[\s\S]*来讲，把*改成*?就是使用了忽略优先量词，*?限定的元素出现次数范围与*彻底同样，都表示“可能出现，也可能不出现，出现次数没有上限”。区别在于，在实际匹配过程当中，遇到[\s\S]能匹配的字符，先尝试“忽略”，若是后面的元素（具体到这个表达式中，是</script>）不能匹配，再尝试匹配，这样就保证告终果的正确性，示例以下：

//忽略优先量词
String text = "<script type=\"text/javascript\">" +
        "alert(\"1\")" +
        "</script>" + 
        "<br />" + 
        "<script type=\"text/javascript\">"+
        "alert(\"2\")"+
        "</script>";
Pattern p = Pattern.compile("<script type=\"text/javascript\">[\\s\\S]*?</script>");
Matcher m = p.matcher(text);
while(m.find()){
    System.out.println(m.group());
}

表：匹配优先量词与忽略优先量词

匹配优先量词	忽略优先量词	限定次数
*	*?	可能不出现，也可能出现，出现次数没有上限
+	+?	至少出现1次，出现次数没有上限
?	??	至多出现1次，也可能不出现
{m,n}	{m,n}?	出现次数最少为m次，最多为n次
{m,}	{m,}?	出现次数最少为m次，没有上限
{0,n}	{0,n}?	可能不出现，也可能出现，最多出现n次

从上表能够看到，匹配优先量词与忽略优先量词逐一对应，只是在对应的匹配优先量词以后添加?，二者限定的元素能出现的次数也同样，遇到不能匹配的状况一样须要回溯；惟一的区别在于，忽略优先量词会优先选择“忽略”，而匹配优先量词会优先选择“匹配”。

转义

前面讲解了匹配优先量词和忽略优先量词，如今介绍量词的转义。在正则表达式中，*，+，?等做为量词的字符具备特殊意义，但有些状况下只但愿表示这些字符自己，此时就必须使用转义，也就是在它们以前添加反斜线 \ 。

对经常使用量词所使用的字符+，＊，? 来讲，若是但愿表示这三个字符自己，直接添加反斜线，变为 \+，\*，\? 便可。可是在通常形式的量词{m,n}中，虽然具备特殊含义的字符不止一个，转义时却只须要给第一个 { 添加反斜线便可，也就是说，若是但愿匹配字符串{m,n}，正则表达式必须写成 \{m,n} 。

另外值得一提的是忽略优先量词的转义，虽然忽略优先量词也包含不仅一个字符，可是在转义时却不像通常形式的量词那样，只转义第一个字符便可，而须要将两个量词所有转义。举例来讲，若是要匹配字符串 *?，正则表达式就必须写做 \*\? ，而不是 \*? ，由于后者的意思是“*这个字符可能出现，也可能不出现”。各类量词的转义以下：

量词	转义形式
{n}	\{n}
{m,n}	\{m,n}
{m,}	\{m,}
{0,n}	\{0,n}
*	\*
+	\+
?	\?
*?	*\\?**
+?	\+\?
??	\?\?

以前还介绍了点号 . ，因此还必须讲解点号的转义：点号（.）是一个元字符，它能够匹配除换行符以外的任何字符，因此若是只想匹配点号自己，必须将它转义为 \. 。由于未转义的点号能够匹配任何字符，其中也能够包含点号，因此常常有人忽略了对点号的转义。