js正则表达式的模式匹配

时间 2019-12-07

原文原文链接

一.正则表达式的定义

1.正则表达式(regular expression)是一个描述字符模式的对象.
2.RegExp对象更多的是经过一种特殊的直接量语法来建立.javascript

var reg = /\d/;

3.正则表达式的模式规则是由一个字符序列组成的,包括全部字母和数字在内,大多数的字符都是按照
直接量仅描述待匹配字符的.java

二.直接量字符

1.正则表达式中的全部字母和数字都是按照字面含义进行匹配的,
也支持非字母的字符匹配,须要经过反斜杠()做为前缀进行转义.好比/n/用以匹配换行符.正则表达式

var str = 'abc12345';
// 直接量字符
var reg = /b/;
console.log(str.match(reg));    // ['b', 1]

三.字符类

1.将直接量字符单独放进方括号内就组成了字符类.
一个字符类能够匹配它所包含的任意字符,/[abc]/就和字母'a','b','c'中的任意一个都匹配.
2.另外,能够经过^符号来定义否认字符类,它匹配全部不包含在方括号内的字符.
3.字符类可使用连字符来表示字符范围,/[a-z]/,[a-zA-Z0-9].
4.因为某些字符类很是经常使用,所以在js的正则表达式语法中,使用了这些特殊字符的转义字符来表示他们.
5.在方括号内也能够写这些特殊转义字符,/[sd]/就匹配任意空白符或者数字express

// 字符类
var reg = /[bc]/;
console.log(str.match(reg));    // ['b', 1]
var reg = /[^bc][^bc]/;
console.log(str.match(reg));
var reg = /\d/g;
console.log(reg.test(str)); // true
console.log(str.match(reg)); // [1,2,3,4,5]

[...] 方括号内的任意字符
¹ 不在方括号内的任意字符
. 除换行符和其余Unicode行终止符以外的任意字符
w [a-zA-Z0-9]
W ²
s 任何Unicode空白符
S 任何非Unicode空白符的字符
d [0-9]
D ³数组

var reg = /\s/g;
console.log(str.replace(reg, ''));

四.重复

1.这些正则表达式语法中较为复杂的模式都提到了正则表达式中某元素的'重复出现次数'.
2.咱们在正则模式以后跟随用以指定字符重复的标记.
3.在使用'*'和'?'时要注意,因为这些字符可能匹配0个字符,所以他们容许什么都不匹配.
{n,m} 匹配前一项至少n次,但不能超过m次
{n,} 匹配前一项n次或者更屡次
{n} 匹配前一项n次
? 匹配前一项0次或屡次,也便是说前一项是可选的,等价于{0,1}函数

匹配前一项1次或屡次,等价于{1,}
匹配前一项0次或屡次,等价于{0,}

// 重复
var reg = /\d{2}/;
console.log(str.match(reg));    // ['12']

var reg = /\d{2,}/;
console.log(str.match(reg));    // ['12345']

var reg = /\d{2,4}/;
console.log(str.match(reg));    // ['1234']

//邮箱 1006894640@qq.com
var str = '1006894640@qq.com.cn';
var reg = /\w+@\w+(\.\w+)+/;
console.log(str.match(reg));

四.非贪婪的重复

1.上面列出的匹配重复时尽量多的匹配,并且容许后续的正则表达式继续匹配,所以,咱们称之为'贪婪的匹配'.
2.咱们一样可使用正则表达式进行非贪婪匹配,只需在待匹配的字符后跟随一个问号便可.'??','+?','*?'或'{1,5}+'.
3.好比,/a+/能够匹配一个或多个连续的字母a,当使用'aaa'做为匹配字符串时,正则表达式会匹配它的三个字符.
可是/a+?也能够匹配一个或多个连续字母a,可是它尽量少的匹配.url

// 非贪婪的匹配
var str = 'aaab';
var reg1 = /a+/;
var reg2 = /a+?/;
console.log(str.match(reg1));   // ['aaa']
console.log(str.match(reg2));   // ['a']

五.选择,分组和引用

1.正则表达式的语法还包括指定选择项,子表达式分组和引用前一子表达式的特殊字符.
字符'|'用于分隔供选择的字符,例如/ab|cd|ef/能够匹配字符串'ab',也能够匹配字符串'cd','ef'.
2.正则表达式中的圆括号有多种做用,一个做用是把单独的项组合成子表达式,以即可以像处理一个独立的
单元那样用'|','*','+','?'等来对单元内的项进行处理.code

// 分组,引用
var str = 'javascript';
var reg1 = /java(script)?/;
console.log(str.match(reg1));   // ['javascript', 'script']

var str = 'abc123';``
var reg = /\w+(\d+)/;
console.log(str.match(reg));    // ['abc123', '3']

六.指定匹配位置

1.正则表达式中的多个元素才能匹配字符串的一个字符,例如s匹配的只是一个空白符,
还有一些正则表达式的元素匹配的是字符之间的位置,而不是实际的字符,例如b匹配一个单词的边界,即位于w和W之间的边界.
2.像b这样的元素不匹配某个可见的字符,它们指定匹配发生的合法位置.
有时咱们称这些元素为正则表达式的锚,由于他们将模式定位在搜索字符串的特定位置上.
最经常使用的锚元素是^,它用来匹配字符串的开始,锚元素$用以匹配字符串的结束.
^ 匹配字符串的开头,在多行检索中,匹配一行的开头
$ 匹配字符串的结尾,在多行检索中,匹配一行的结尾
b 匹配一个单词的边界,简言之,就是位于字符w和W之间的位置,或位于字符s和字符串的开头或结尾之间的位置
B 匹配非单词边界的位置对象

// 匹配非单词边界
var str1 = 'javascript';
var str2 = 'scripting';
var reg1 = /\bscript/;
var reg2 = /\Bscript/;
console.log(str1.match(reg1));  // null
console.log(str1.match(reg2));  // ['script']
console.log(str2.match(reg1));  // ['script']
console.log(str2.match(reg2));  // null

七.修饰符

1.正则表达式的修饰符,用以说明高级匹配模式的规则.
'i'用以说明模式匹配是不区分大小写的
'g'说明模式匹配应该是全局的,也就是说,应该找出被检索字符串中全部的匹配blog

// 修饰符
var str = 'AAaa';
var reg = /a/;
console.log(str.match(reg));    // ['a']
var reg = /a/g;
console.log(str.match(reg));    // ['a','a']
var reg = /a/i;
console.log(str.match(reg));    // ['A']
var reg = /a/gi;
console.log(str.match(reg));    // ['A', 'A', 'a', 'a']

用于模式匹配的String方法

String对象的一些用以执行正则表达式模式匹配和检索替换操做的方法

String.search

1.search(),他的参数是一个正则表达式,返回一个与之匹配的字串的起始位置,若是找不到匹配的字串,它将返回-1.

var str = 'javascript123';
var reg = /script/i;
console.log(str.search(reg));   // 4

String.replace

1.replace()方法用以执行检索与替换操做,其中一个参数是一个正则表达式,第二个参数是要进行替换的字符串.
若是正则表达式中设置了修饰符g,那么源字符串中全部模式匹配的字串都将替换成第二个参数指定的字符串,
若是不带修饰符g,则只替换所匹配的第一个字串.
2.正则表达式中使用圆括号括起来的子表达式是带有从左到右的索引编号的,并且正则表达式会记忆与每一个子表达式匹配的文本.
若是在替换字符串中出现了$加数字,那么replace()将用与指定的子表达式相匹配的文原本替换这两个字符.
3.replace()方法还有一些其余重要特性,第二个参数能够是函数,该函数可以动态的计算替换字符串.

var reg = /j(ava)sc(ri)pt/g;
console.log(str.replace(reg, '$1'));    // 'ava'
console.log(str.replace(reg, '$2'));    // 'ri'
console.log(str);   // 'javscript',原字符串保持不变,字符串永远不会变化,除非另外赋值.

var str2 = str.replace(reg, (a, b, c, d, e) => {
    console.log(a); // 'javascript' 匹配字符串
    console.log(b); // 'ava'    $1
    console.log(c); // 'ri'     $2
    console.log(d); // 0    匹配位置
    console.log(e);
    return 1;  // 匹配结果
});
console.log(str2);  // 1

String.match

1.match()方法是最经常使用的String正则表达式方法.它的惟一参数就是一个正则表达式,返回的是一个由匹配结果组成的数组.
若是该正则表达式设置了修饰符g,则该方法返回的数组包含字符串中的全部匹配结果.

// match
var str = 'javascriptjava';
var reg = /java/;
console.log(str.match(reg));   // ['java', 0]

var text = 'Visit my blog at http://www.example.com/~david';
var url = /(\w+):\/\/([\w.]+)\/(\S*)/;
var result = text.match(url);
console.log(result);
console.log(result.length); // 4
for (var i = 0; i < result.length; i++) {
    console.log(result[i]); // 'http://www.example.com/~david',http,'www.example.com','~david'
}

String.split

split()用以将调用它的字符串拆分为一个子串组成的数组,使用的分隔符是split()参数.
split()方法的参数能够是一个正则表达式,这使得split()方法异常强大.

// split
var str = 'abcde';
console.log(str.split('c')); // ['ab', 'de']

// 能够指定分隔符,容许两边能够留有任意多的空白字符
var str = '1,  2,3, 4,    5';
console.log(str.split(/\s*,\s*/));  // [1, 2, 3, 4, 5]

RegEXP对象

RegExp对象定义了两个用于执行模式匹配操做的方法.
exec()方法与match()相似,只是RegExp方法的参数是一个字符串,而String方法的参数是一个RegExp对象.
另一个RegExp方法是test(),它的参数是一个字符串,用test()对某个字符串进行检测,若是包含正则表达式的一个匹配结果,则返回true.

... ↩
a-zA-Z0-9 ↩
0-9 ↩