通常形式javascript
假如咱们要验证邮政编码:201203,100858,因此用正则表达式来表示就是 \d\d\d\d\d\d,只有同时知足“长度是6个字符”和“每一个字符都是数字”两个条件,匹配才成功。虽然这不难理解,但 \d 重复6次,读写都不方便。为此,正则表达式提供了量词(quantifier)。那么上面的例子就能够简写为 \d{6},它使用阿拉伯数字,更简洁也更直观。html
//使用量词减化字符组 String text = "510850"; Pattern p = Pattern.compile("\\d{6}"); Matcher m = p.matcher(text); System.out.println(m.matches()); //true
量词还能够表示不肯定的长度,其通用形式是{m,n},其中m和n是两个数字(有些人习惯在代码中的逗号以后添加空格,这样更好看,可是量词中的逗号以后毫不能有空格),它限定以前的元素可以出现的次数,m是下限,n是上限(均为闭区间)。好比 \d{4,6},就表示这个数字字符串的长度最短是4个字符,最长是6个字符。若是不肯定长度的上限,也能够省略,只指定下限,写成 \d{n,},好比 \d{4,}表示“数字字符串的长度必须在4个字符以上”。java
量词 |
说明 |
{n} |
以前的元素必须出现n次 |
{m,n} |
以前的元素最少出现m次,最多出现n次 |
{m,} |
以前的元素最少出现m次,出现次数无上限 |
{0,n} |
以前的元素能够不出现,也能够出现,最多出现n次 |
经常使用量词正则表达式
{m,n}是通用形式的量词,正则表达式还有三个经常使用量词,分别是 +,?,* 。它们的形态虽然不一样于{m,n},功能倒是相同的(也能够把它们理解为“量词简记法”),具体说明以下:测试
经常使用量词 |
{m,n}等价形式 |
说明 |
* |
{0,} |
可能出现,也可能不出现,出现次数没有上限 |
+ |
{1,} |
至少出现1次,出现次数没有上限 |
? |
{0,1} |
至多出现一次,也可能不出现 |
在实际应用中,在不少状况下只须要表示这三种意思,因此经常使用量词的使用频率要高于{m,n}。编码
点号spa
前一节讲到了各类字符组,与它相关的还有一个特殊的元字符:点号(.)。通常文档都说,点号能够匹配“任意字符”,点号确实能够匹配“任意字符”,常见的数字,字母,各类符号均可以匹配,但有一个字符不能由点号匹配,就是换行符 \n。这个字符平时看不见,却存在,并且在处理时并不能忽略。翻译
若是非要匹配“任意字符”,有两种办法:能够指定使用单行匹配模式,在这种模式下,点号能够匹配换行符;或者使用上一节介绍“自制”通配字符组 [\s\S] (也可使用 [\d\D]或[\w\W]),正好涵盖了全部字符。示例:code
//换行符的匹配 String text = "\n"; Pattern p = Pattern.compile("[\\d\\D]"); Matcher m = p.matcher(text); System.out.println(m.matches()); //true Pattern p1 = Pattern.compile("."); Matcher m1 = p1.matcher(text); System.out.println(m1.matches()); //false
滥用点号的问题htm
由于点号能匹配几乎全部的字符,因此实际应用中许多人图省事,随意使用 .* 或 .+ ,结果却事与愿违,下面以双引号字符串为例来讲明。咱们通常使用表达式 ”[^"]*" 匹配双引号字符串,而“图省事” 的作法是 “.*” 。一般这么用是没有问题的,但也可能有意外。
用“.*”匹配双引号字符串,不但能够匹配正常的双引号字符串“quoted string”,还能够匹配格式错误的字符串 "quoted string" and another" 。这是为何呢?缘由涉及正则表达式的匹配原理。
在正则表达式 “.*” 中,点号能够匹配任何字符,*表示能够匹配的字符串长度没有限制,因此 .* 在匹配过程结束之前,每遇到一个字符(除去没法匹配的 \n),.*均可以匹配,可是遇到第一个 " 时,究竟是匹配这个字符仍是忽略它,仍是将其交给以后的 " 来匹配呢?
答案是,具体选择取决于所使用的量词。在正则表达式中的量词分为几类,以前介绍的量词均可以归到一类,叫作匹配优先量词(贪婪量词)。匹配优先量词,顾名思义,就是在拿不许是否要匹配的时候,优先尝试匹配,而且记下这个状态,以备未来“反悔”。
来看表达式“.*”对字符串“quoted string”的匹配过程。一开始, “ 匹配 “ ,而后轮到字符q,.*能够匹配它,也能够不匹配,由于使用了匹配优先量词,因此.*先匹配q,而且记录下这个状态「q也多是.*不该该匹配的」;接下来是字符u,.*能够匹配它,也能够不匹配,由于使用了匹配优先量词,因此.*先匹配u,而且记录下这个状态『u也多是.*不该该匹配的』; .......如今轮到了字符g,.*能够匹配它,也能够不匹配,由于使用了匹配优先量词,因此 .*先匹配g,而且记录下这个状态『g也多是.*不该该匹配的』。最后是末尾的",.*能够匹配它,也能够不匹配,由于使用了匹配优先量词,因此.*先匹配 “,而且记录下这个状态『'也多是.*不该该匹配的』。这时候,字符串以后已经没有字符了,但正则表达式中还有 ” 没有匹配,因此只能查询以前保存备用的状态,看看能不能退回几步,照顾 " 的匹配。查询到最近保存的状态是:「"也多是.*不该该匹配的」。因而让.* 反悔对 " 的匹配,把 " 交给 “ ,测试发现正好能匹配,因此整个匹配宣告成功。这个反悔的过程,专业术语叫作回溯(backtracking)。
忽略优先量词
好比,用一个正则表达式匹配下面这段HTML源代码:
<script type="text/javascript"> alert("some punctuation <>/"); </script>
开头和结尾的tag都容易匹配,中间的代码要比较麻烦,由于点号. 不能匹配换行符,因此必须使用[\s\S],[\d\D]或者[\w\W]。
<script type="text/javascript">[\s\S]*</script>
这个表达式确实能够匹配上面的Javascript代码。可是若是遇到更复杂的状况就会出错,好比针对下面这段HTML代码:
<script type="text/javascript"> alert("1"); </script> <br /> <script type="text/javascript"> alert("2"); </script>
若是用上面的表达式来匹配这段HTML代码,会一次性匹配两段Javascript代码,甚至包含之间的非Javascript代码。按照匹配原理,[\s\S]*先匹配全部的文本,回溯时交还最后的</script>,整个表达式的匹配就成功了,逻辑就是如此,无可改进。并且,这个问题也不能模仿以前双引号字符串匹配,用[^"]*区配<script...>和</script>之间的代码,由于排除型字符组只能排除单个字符,[^</script>]不能表示“不是</script>的字符串”。
换个角度来看,经过改变[\s\S]*的匹配策略解决问题:在不肯定是否要匹配的场合,先尝试不匹配的选择,测试正则表达式中后面的元素,若是失败,再退回来尝试 [\s\S]* 匹配,如此就没有问题了。循着这个思路,正则表达式中还提供了忽略优先量词(lazy quantifier 或 reluctant quantifier,也就有翻译为懒惰量词),若是不肯定是否要匹配,忽略优先量词会选择“不匹配”的状态,再尝试表达式中以后的元素,若是尝试失败,再回溯,选择以前保存的“匹配”的状态。
对[\s\S]*来讲,把*改成*?就是使用了忽略优先量词,*?限定的元素出现次数范围与*彻底同样,都表示“可能出现,也可能不出现,出现次数没有上限”。区别在于,在实际匹配过程当中,遇到[\s\S]能匹配的字符,先尝试“忽略”,若是后面的元素(具体到这个表达式中,是</script>)不能匹配,再尝试匹配,这样就保证告终果的正确性,示例以下:
//忽略优先量词 String text = "<script type=\"text/javascript\">" + "alert(\"1\")" + "</script>" + "<br />" + "<script type=\"text/javascript\">"+ "alert(\"2\")"+ "</script>"; Pattern p = Pattern.compile("<script type=\"text/javascript\">[\\s\\S]*?</script>"); Matcher m = p.matcher(text); while(m.find()){ System.out.println(m.group()); }
表:匹配优先量词与忽略优先量词
匹配优先量词 |
忽略优先量词 |
限定次数 |
* |
*? |
可能不出现,也可能出现,出现次数没有上限 |
+ |
+? |
至少出现1次,出现次数没有上限 |
? |
?? |
至多出现1次,也可能不出现 |
{m,n} |
{m,n}? |
出现次数最少为m次,最多为n次 |
{m,} |
{m,}? |
出现次数最少为m次,没有上限 |
{0,n} |
{0,n}? |
可能不出现,也可能出现,最多出现n次 |
从上表能够看到,匹配优先量词与忽略优先量词逐一对应,只是在对应的匹配优先量词以后添加?,二者限定的元素能出现的次数也同样,遇到不能匹配的状况一样须要回溯; 惟一的区别在于,忽略优先量词会优先选择“忽略”,而匹配优先量词会优先选择“匹配”。
转义
前面讲解了匹配优先量词和忽略优先量词,如今介绍量词的转义。在正则表达式中,*,+,?等做为量词的字符具备特殊意义,但有些状况下只但愿表示这些字符自己,此时就必须使用转义,也就是在它们以前添加反斜线 \ 。
对经常使用量词所使用的字符+,*,? 来讲,若是但愿表示这三个字符自己,直接添加反斜线,变为 \+,\*,\? 便可。可是在通常形式的量词{m,n}中,虽然具备特殊含义的字符不止一个,转义时却只须要给第一个 { 添加反斜线便可,也就是说,若是但愿匹配字符串{m,n},正则表达式必须写成 \{m,n} 。
另外值得一提的是忽略优先量词的转义,虽然忽略优先量词也包含不仅一个字符,可是在转义时却不像通常形式的量词那样,只转义第一个字符便可,而须要将两个量词所有转义。举例来讲,若是要匹配字符串 *?,正则表达式就必须写做 \*\? ,而不是 \*? ,由于后者的意思是“*这个字符可能出现,也可能不出现”。各类量词的转义以下:
量词 |
转义形式 |
{n} |
\{n} |
{m,n} |
\{m,n} |
{m,} |
\{m,} |
{0,n} |
\{0,n} |
* |
\* |
+ |
\+ |
? |
\? |
*? |
\*\? |
+? |
\+\? |
?? |
\?\? |
以前还介绍了点号 . ,因此还必须讲解点号的转义:点号(.)是一个元字符,它能够匹配除换行符以外的任何字符,因此若是只想匹配点号自己,必须将它转义为 \. 。由于未转义的点号能够匹配任何字符,其中也能够包含点号,因此常常有人忽略了对点号的转义。