关于正则表达式的贪婪与非贪婪模式

时间 2019-12-06

原文原文链接

之前看正则表达式，但没有注意到正则表达式的贪婪与非贪婪模式，今天在经典上看到了这么段代码：正则表达式

< script >
try {
    str = "<p>abcdefg</p><p>abcdefghijkl</p>";

    re1 = str.match(/<p>[\W\w]+?<\/p>/ig);
    alert("非贪婪模式:\r\n\r\n１：" + re1[0] + "\r\n２：" + re1[1]);

    re1 = str.match(/<p>[\W\w]+<\/p>/ig);
    alert("贪婪模式:\r\n\r\n" + re1);

    re1 = str.match(/<p>(.+?)<\/p>/i);
    alert("非贪婪模式，且不要标记:\r\n\r\n１：" + re1[1]);

    re1 = str.match(/<p>(.+)<\/p>/i);
    alert("贪婪模式，且不要标记:\r\n\r\n" + re1[1]);
} catch(e) {
    alert(e.description)
} < /script>

匹配次数中的贪婪与非贪婪

贪婪模式:
在使用修饰匹配次数的特殊符号时，有几种表示方法可使同一个表达式可以匹配不一样的次数，好比："{m,n}", "{m,}", "?", "*", "+"，具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程当中，老是尽量多的匹配。好比，针对文本 "dxxxdxxxd"，举例以下： spa

表达式 code	匹配结果 ip
(d)(\w+) ci	"\w+" 将匹配第一个 "d" 以后的全部字符 "xxxdxxxd" 字符串
(d)(\w+)(d) get	"\w+" 将匹配第一个 "d" 和最后一个 "d" 之间的全部字符 "xxxdxxx"。虽然 "\w+" 也可以匹配上最后一个 "d"，可是为了使整个表达式匹配成功，"\w+" 能够 "让出" 它原本可以匹配的最后一个 "d" io

因而可知，"\w+" 在匹配的时候，老是尽量多的匹配符合它规则的字符。虽然第二个举例中，它没有匹配最后一个 "d"，但那也是为了让整个表达式可以匹配成功。同理，带 "*" 和 "{m,n}" 的表达式都是尽量地多匹配，带 "?" 的表达式在可匹配可不匹配的时候，也是尽量的 "要匹配"。这种匹配原则就叫做 "贪婪" 模式。 table

非贪婪模式：

在修饰匹配次数的特殊符号后再加上一个 "?" 号，则可使匹配次数不定的表达式尽量少的匹配，使可匹配可不匹配的表达式，尽量的 "不匹配"。这种匹配原则叫做 "非贪婪" 模式，也叫做 "勉强" 模式。若是少匹配就会致使整个表达式匹配失败的时候，与贪婪模式相似，非贪婪模式会最小限度的再匹配一些，以使整个表达式匹配成功。举例以下，针对文本 "dxxxdxxxd" 举例： class

表达式	匹配结果
(d)(\w+?)	"\w+?" 将尽量少的匹配第一个 "d" 以后的字符，结果是："\w+?" 只匹配了一个 "x"
(d)(\w+?)(d)	为了让整个表达式匹配成功，"\w+?" 不得不匹配 "xxx" 才可让后边的 "d" 匹配，从而使整个表达式匹配成功。所以，结果是："\w+?" 匹配 "xxx"

更多的状况，举例以下：

举例1：表达式 "<td>(.*)</td>" 与字符串 "<td>aa</td> <td>bb</td>" 匹配时，匹配的结果是：成功；匹配到的内容是 "<td>aa</td> <td>bb</td>" 整个字符串，表达式中的 "</td>" 将与字符串中最后一个 "</td>" 匹配。

举例2：相比之下，表达式 "<td>(.*?)</td>" 匹配举例1中一样的字符串时，将只获得 "<td>aa</td>"，再次匹配下一个时，能够获得第二个 "<td>bb</td>"。