JavaScript正则表达式迷你书-笔记

时间 2019-12-04

标签 javascript 正则表达式迷你笔记栏目 JavaScript 繁體版

原文原文链接

贪婪模式：

在使用修饰匹配次数的特殊符号时，有几种表示方法能够使同一个表达式可以匹配不一样的次数，好比："{m,n}", "{m,}", "?", "*", "+"，具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程当中，老是尽量多的匹配ide

非贪婪模式：

在修饰匹配次数的特殊符号后再加上一个 "?" 号，则能够使匹配次数不定的表达式尽量少的匹配，使可匹配可不匹配的表达式，尽量的 "不匹配"。这种匹配原则叫做 "非贪婪" 模式，也叫做 "勉强" 模式。若是少匹配就会致使整个表达式匹配失败的时候，与贪婪模式相似，非贪婪模式会最小限度的再匹配一些，以使整个表达式匹配成功。idea

var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );
// => ["123", "1234", "12345", "12345"]

其中正则 /d{2,5}/，表示数字连续出现 2 到 5 次。会匹配 2 位、3 位、4 位、5 位连续数字。可是其是贪婪的，它会尽量多的匹配。你能给我 6 个，我就要 5 个。你能给我 3 个，我就要 3 个。反正只要在能力范围内，越多越好。code

横向模糊匹配

横向模糊指的是，一个正则可匹配的字符串的长度不是固定的，能够是多种状况的。其实现的方式是使用量词。譬如 {m,n}，表示连续出现最少 m 次，最多 n 次。好比正则 /ab{2,5}c/ 表示匹配这样一个字符串：第一个字符是 "a"，接下来是 2 到 5 个字符 "b"，最后是字符 "c"。字符串

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc";
console.log( string.match(regex) );
// => ["abbc", "abbbc", "abbbbc", "abbbbbc"]

纵向模糊匹配

纵向模糊指的是，一个正则匹配的字符串，具体到某一位字符时，它能够不是某个肯定的字符，能够有多种可能。其实现的方式是使用字符组。
譬如 [abc]，表示该字符是能够字符 "a"、"b"、"c" 中的任何一个。好比 /a[123]b/ 能够匹配以下三种字符串： "a1b"、"a2b"、"a3b"。string

var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log( string.match(regex) );
// => ["12", "12", "34", "12", "34", "12", "34", "56"]
其中 /\d{2,5}?/ 表示，虽然 2 到 5 次都行，当 2 个就够的时候，就再也不往

多选分支

一个模式能够实现横向和纵向模糊匹配。而多选分支能够支持多个子模式任选其一。具体形式以下：(p1|p2|p3)，其中 p一、p2 和 p3 是子模式，用 |（管道符）分隔，表示其中任何之一。例如要匹配字符串 "good" 和 "nice" 能够使用 /good|nice/。io

var regex = /good|nice/g;
var string = "good idea, nice try.";
console.log( string.match(regex) );
// => ["good", "nice"]

但有个事实咱们应该注意，好比我用 /good|goodbye/，去匹配 "goodbye" 字符串时，结果是 "good"console

var regex = /good|goodbye/g;
var string = "goodbye";
console.log( string.match(regex) );
// => ["good"]

而把正则改为 /goodbye|good/，结果是：function

var regex = /goodbye|good/g;
var string = "goodbye";
console.log( string.match(regex) );
// => ["goodbye"]

也就是说，分支结构也是惰性的，即当前面的匹配上了，后面的就再也不尝试了。test

反向引用

好比要写一个正则支持匹配以下三种格式
2016-06-12
2016/06/12
2016.06.12引用

var regex = /\d{4}(-|\/|.)\d{2}(-|\/|.)\d{2}/;
var string1 = "2017-06-12";
var string2 = "2017/06/12";
var string3 = "2017.06.12";
var string4 = "2016-06/12";
console.log( regex.test(string1) ); // true
console.log( regex.test(string2) ); // true
console.log( regex.test(string3) ); // true
console.log( regex.test(string4) ); // true

其中 / 和 . 须要转义。虽然匹配了要求的状况，但也匹配 "2016-06/12" 这样的数据。

假设咱们想要求分割符先后一致怎么办？此时须要使用反向引用：

var regex = /\d{4}(-|\/|.)\d{2}\1\d{2}/;
var string1 = "2017-06-12";
var string2 = "2017/06/12";
var string3 = "2017.06.12";
var string4 = "2016-06/12";
console.log( regex.test(string1) ); // true
console.log( regex.test(string2) ); // true
console.log( regex.test(string3) ); // true
console.log( regex.test(string4) ); // false

注意里面的 1，表示的引用以前的那个分组 (-|/|.)。无论它匹配到什么（好比 -），1 都匹配那个同样的具体某个字符。

咱们知道了 1 的含义后，那么 2 和 3 的概念也就理解了，即分别指代第二个和第三个分组。

使用例子

字符串 trim 方法模拟

function trim(str) {
  return str.replace(/^\s+|\s+$/g, '');
}

表示一个 16 进制字符，能够用字符组 [0-9a-fA-F]。其中字符能够出现 3 或 6 次，须要是用量词和分支结构。使用分支结构时，须要注意顺序。正则以下

var regex = /#([0-9a-fA-F]{6}|[0-9a-fA-F]{3})/g;
var string = "#ffbbad #Fc01DF #FFF #ffE";
console.log( string.match(regex) );
// => ["#ffbbad", "#Fc01DF", "#FFF", "#ffE"]