JavaScript正则表达式的匹配模式

正则表达式(regular expression)是一个描述字符模式的对象。JavaScript的 RegExp类 表示正则表达式,String和RegExp都定义了方法,后者使用正则表达式进 行强大的模式匹配文本检索与替换功能。JavaScript的正则表达式语法是Perl5的正则表达式语法的大型子集,因此对于有Perl编程经验的程序员来讲,学习JavaScript 中的正则表达式[1]是小菜一碟。javascript

定义

JavaScript中的正则表达式用 RegExp对象 表示,可使用RegExp()构造函数来创 建RegExp对象,不过RegExp对象更多的是经过一种特殊的直接量语法来建立。就像经过引号包裹字符的方式来定义字符串直接量同样,正则表达式直接量定义为包含在一对斜杠 (/) 之间的字符,例如:java

var pattern=/s$/;

运行这段代码建立一个新的RegExp对象,并将它赋值给变量pattern。这个特殊 的RegExp对象用来匹配全部以字母“s”结尾的字符串。用构造函数RegExp()也能够 定义个与之等价的正则表达式,代码以下:程序员

var pattern=new RegExp(“s$”);

正则表达式直接量则与此不一样,ECMAScript 3规范规定,一个正则表达式直接 量会在执行到它时转换为一个RegExp对象,同一段代码所表示正则表达式直接量的 每次运算都返回同一个对象。ECMAScript 5规范则作了相反的规定,同一段代码所 表示的正则表达式直接量的每次运算都返回新对象。IE一直都是按照ECMAScript 5 规范实现的,多数最新版本的浏览器也开始遵循ECMAScript 5。web

高级语法

非贪婪的重复

通常匹配重复字符是尽量多地匹配,并且容许后续的正则表达式 继续匹配。所以,咱们称之为“贪婪的”匹配。咱们一样可使用正则表达式进行非贪婪匹配。只须在待匹配的字符后跟随一个问号即 可:“??”、“+?”、“*?”或“{1,5}?”。好比,正则表达式/a+/能够匹配一个或多个连续 的字母a。当使用“aaa”做为匹配字符串时,正则表达式会匹配它的三个字符。但 是/a+?/也能够匹配一个或多个连续字母a,但它是尽量少地匹配。咱们一样 将“aaa”做为匹配字符串,但后一个模式只能匹配第一个a。正则表达式

使用非贪婪的匹配模式所获得的结果可能和指望并不一致。考虑如下正则表达 式/a+b/,它能够匹配一个或多个a,以及一个b。当使用“aaab”做为匹配字符串时, 它会匹配整个字符串。如今再试一下非贪婪匹配的版本/a+?b/,它匹配尽量少的a 和一个b。当用它来匹配“aaab”时,你指望它能匹配一个a和最后一个b。但实际上, 这个模式却匹配了整个字符串,和该模式的贪婪匹配如出一辙。这是由于正则表达 式的模式匹配老是会寻找字符串中第一个可能匹配的位置。因为该匹配是从字符串的第一个字符开始的,所以在这里不考虑它的子串中更短的匹配。shell

选择、分组和引用

正则表达式的语法还包括指定选择项、子表达式分组引用前一子表达式的特殊字符。字符“|”用于分隔供选择的字符。例如,/ab|cd|ef/ 能够匹配字符串“ab”,也 能够匹配字符串“cd”,还能够匹配字符串“ef”。/d{3}|[a-z]{4}/匹配的是三位数字或 者四个小写字母。express

注意,选择项的尝试匹配次序是从左到右,直到发现了匹配项。若是左边的选择项匹配,就忽略右边的匹配项,即便它产生更好的匹配。所以,当正则表达式 /a|ab/匹配字符串“ab”时,它只能匹配第一个字符。编程

正则表达式中的圆括号有多种做用。一个做用是把单独的项组合成子表达式, 以即可以像处理一个独立的单元那样用“|”、“*”、“+”或者“?”等来对单元内的项进行处理。例如, /java(script)?/ 能够匹配字符串“java”,其后能够有“script”也能够没有。/(ab|cd)+|ef/ 能够匹配字符串“ef”,也能够匹配字符串“ab”或“cd”的一次或屡次重复。数组

在正则表达式中,圆括号的另外一个做用是在完整的模式中定义子模式。当一个正则表达式成功地和目标字符串相匹配时,能够从目标串中抽出和圆括号中的子模式相匹配的部分。例如,假定咱们正在检索的模式是一个或多个小写字母后面跟随了一位或多位数字, 则可使用模式 /[a-z]+\d+/。但假定咱们真正关心的是每一个匹配尾部的数字,那么若是将模式的数字部分放在括号中 (/[a-z]+(\d+)/) ,就能够从检索到的匹配中抽取数字 了,以后咱们会有详尽的解释。浏览器

带圆括号的表达式的另外一个用途是容许在同一正则表达式的后部引用前面的子表达式。这是经过在字符 “\” 后加一位或多位数字来实现的。这个数字指定了带圆括 号的子表达式在正则表达式中的位置。例如,\1引用的是第一个带圆括号的子表达 式,\3 引用的是第三个带圆括号的子表达式。注意,由于子表达式能够嵌套另外一个子表达式,因此它的位置是参与计数的左括号的位置。例如,在下面的正则表达式 中,嵌套的子表达式 ([Ss]cript) 能够用 \2来指代:

/([Jj]ava([Ss]cript)?)\sis\s(fun\w*)/

image

对正则表达式中前一个子表达式的引用,并非指对子表达式模式的引用,而指的是与那个模式相匹配的文本的引用。这样,引用能够用于实施一条约束,即一个字符串各个单独部分包含的是彻底相同的字符。例如,下面的正则表达式匹配的就是位于单引号或双引号以内的0个或多个字符。可是,它并不要求左侧和右侧的引号匹配(即,加入的两个引号都是单引号或都是双引号):

/[’”][^’”]*[’”]/

若是要匹配左侧和右侧的引号,可使用以下的引用:

/([’”])[^’”]*\1/

\1 匹配的是第一个带圆括号的子表达式所匹配的模式。在这个例子中,存在这样一条约束,那就是左侧的引号必须和右侧的引号相匹配。正则表达式不容许用双引号括起的内容中有单引号,反之亦然。不能在字符类中使用这种引用,因此下面的写法是非法的:

/([’”])[^\1]*\1/

一样,在正则表达式中不用建立带数字编码的引用,也能够对子表达式进行分组。它不是以“(”和“)”进行分组,而是以“(?:”和“)”来进行分组,好比,考虑下面这 个模式:

/([Jj]ava(?:[Ss]cript)?)\sis\s(fun\w*)/

这里,子表达式 (?:[Ss]cript) 仅仅用于分组,所以复制符号”?”能够应用到各个分 组。这种改进的圆括号并不生成引用,因此在这个正则表达式中,\2 引用了与 (fun\W*) 匹配的文本。

下图对正则表达式的选择、分组和引用运算符作了总结:

image

先行断言

任意正则表达式均可以做为锚点条件。若是在符号 “(?=”和“)” 之间加入一个表 达式,它就是一个 先行断言 ,用以说明圆括号内的表达式必须正确匹配,但并非真正意义上的匹配。好比,要匹配一种经常使用的程序设计语言的名字,但只在其后 有冒号时才匹配,可使用 /[Jj]ava([Ss]cript)?(?=\:)/。这个正则表达式能够匹 配“JavaScript:The Definitive Guide”中的“JavaScript”,可是不能匹配“Java in a Nutshell”中的“Java”,由于它后面没有冒号。

image

带有 “(?!” 的断言是负向先行断言,用以指定接下来的字符都没必要匹配。例 如, /Java(?!Script)([A-Z]\w*)/能够匹配“Java”后跟随一个大写字母和任意多个ASCII 单词,但Java后面不能跟随“Script”。它能够匹配“JavaBeans”,但不能匹配“Javanese”;它不匹配“JavaScript”,也不能匹配“JavaScripter”。

image

用于模式匹配的String方法

String支持4种使用正则表达式的方法。

search

最简单的是 search()。它的参数是一个正 则表达式,返回第一个与之匹配的子串的起始位置,若是找不到匹配的子串,它将 返回-1。好比,下面的调用返回值为4:

“JavaScript”.search(/script/i);

若是search()的参数不是正则表达式,则首先会经过RegExp构造函数将它转换 成正则表达式, search()方法不支持全局检索,由于它忽略正则表达式参数中的修饰符g。

replace

replace()方法用以执行检索与替换操做。其中第一个参数是一个正则表达式, 第二个参数是要进行替换的字符串。这个方法会对调用它的字符串进行检索,使用指定的模式来匹配。若是正则表达式中设置了修饰符g,那么源字符串中全部与模式匹配的子串都将替换成第二个参数指定的字符串;若是不带修饰符g,则只替换所匹配的第一个子串。若是replace()的第一个参数是字符串而不是正则表达式,则 replace()将直接搜索这个字符串,而不是像search()同样首先经过RegExp()将它转换为正则表达式。好比,可使用下面的方法,利用replace()将文本中的全部 javascript(不区分大小写)统一替换为“JavaScript”:

//将全部不区分大小写的javascript都替换成大小写正确的JavaScript 
text.replace(/javascript/gi,“JavaScript”);

replace() 的功能远不止这些。回忆一下前文所提到的,正则表达式中使用圆 括号括起来的子表达式是带有从左到右的索引编号的,并且正则表达式会记忆与每 个子表达式匹配的文本。若是在替换字符串中出现了$加数字,那么 replace() 将用与 指定的子表达式相匹配的文原本替换这两个字符。这是一个很是有用的特性。比 如,能够用它将一个字符串中的英文引号替换为中文半角引号:

//一段引用文本起始于引号,结束于引号
//中间的内容区域不能包含引号
var quote=/”([^”]*)”/g;//用中文半角引号替换英文引号,同时要保持引号之间的内容(存储在$1中)没有被修改 
text.replace(quote,’“$1”’);

最值得注意的是,replace()方法的第二个参数 能够是函数,该函数可以动态地计算替换字符串。

match

match() 方法是最经常使用的String正则表达式方法。它的惟一参数就是一个正则表达式(或经过RegExp()构造函数将其转换为正则表达式),返回的是一个由匹配结 果组成的数组。若是该正则表达式设置了修饰符g,则该方法返回的数组包含字符 串中的全部匹配结果。例如:

“1 plus 2 equals 3”.match(/\d+/g)//返回[“1”,“2”,“3”]

若是这个正则表达式没有设置修饰符 gmatch() 就不会进行全局检索,它只检 索第一个匹配。但即便 match() 执行的不是全局检索,它也返回一个数组。在这种情 况下,数组的第一个元素就是匹配的字符串,余下的元素则是正则表达式中用圆括 号括起来的子表达式。所以,若是 match() 返回一个数组a,那么 a[0] 存放的是完整的 匹配,a[1]存放的则是与第一个用圆括号括起来的表达式相匹配的子串,以此类 推。为了和方法 replace() 保持一致, a[n] 存放的是 $n的内容。

split

split() 这个方法用以将调用 它的字符串拆分为一个子串组成的数组,使用的分隔符是split()的参数,例如:

“123,456,789”.split(“,”);//返回[“123”,“456”,“789”]

split() 方法的参数也能够是一个正则表达式,这使得 split() 方法异常强大。例如,能够指定分隔符,容许两边能够留有任意多的空白符:

“1,2,3,4,5”.split(/\s*,\s*/);//返回[“1”,“2”,“3”,“4”,“5”]

RegExp对象

RegExp的属性

每一个RegExp对象都包含5个属性。

  • 属性source是一个只读的字符串,包含正则表达式的文本。
  • 属性global是一个只读的布尔值,用以说明这个正则表达式是否带有修饰符 g
  • 属性 ignoreCase 也是一个只读的布尔值,用以说明正则表达式是否带有修饰符 i
  • 属性 multiline 是一个只读的布尔值,用以说明正则表达式是否带有修饰符 m
  • 最后一个属性 lastIndex,它是一个可读/写的整数。若是匹配模式带有g修饰符, 这个属性存储在整个字符串中下一次检索的开始位置,这个属性会被 exec()test() 方法用到,下面会讲到。

RegExp的方法

RegExp对象定义了两个用于执行模式匹配操做的方法。

exec

RegExp最主要的执行模式匹配的方法是 exec()exec()方法对一个指定的字符串执行一个正则表达 式,简言之,就是在一个字符串中执行匹配检索。若是它没有找到任何匹配,它就 返回null,但若是它找到了一个匹配,它将返回一个数组,就像match() 方法为非全局检索返回的数组同样。

match() 方法不一样,无论正则表达式是否具备全局修饰符g, exec()都会返回同样的数组。当调用exec()的正则表达式对象具备修饰符g时,它将把当前正则表达式 对象的lastIndex属性设置为紧挨着匹配子串的字符位置。当同一个正则表达式第二 次调用 exec() 时,它将从 lastIndex 属性所指示的字符处开始检索。

var pattern = /Java/g;
var text = "JavaScript is more fun than Java!";
result = pattern.exec(text)
//结果
//["Java", index: 0, input: "JavaScript is more fun than Java!"]
pattern.lastIndex //4

若是 exec() 没有发现任何匹配结果,它会将 lastIndex 重置为0(在任什么时候候均可以将 lastIndex属性设置 为0,每当在字符串中找最后一个匹配项后,在使用这个RegExp对象开始新的字符串查找以前,都应当将 lastIndex 设置为0)。这种特殊的行为使咱们能够在用正则表达式匹配字符串的过程当中反复调用 exec(),好比:

var pattern = /Java/g;
var text = "JavaScript is more fun than Java!";
var result;
while ((result = pattern.exec(text)) != null) {
  alert("Matched '" + result[0] + "'" +
    " at position " + result.index +
    "; next search begins at " + pattern.lastIndex);
}

test

另一个RegExp方法是 test() ,它比 exec() 更简单一些。它的参数是一个字符串,用 test() 对某个字符串进行检测,若是包含正则表达式的一个匹配结果,则返回 true :

var pattern=/java/i; 
pattern.test(“JavaScript”);//返回true

调用 test() 和调用 exec() 等价,当 exec() 的返回结果不是null时,test()返回true。因为这种等价性,当一个全局正则表达式调用方法 test() 时,它的行为和 exec() 相同, 由于它从 lastIndex 指定的位置处开始检索某个字符串,若是它找到了一个匹配结果,那么它就当即设置 lastIndex 为当前匹配子串的结束位置。这样一来,就可使用test() 来遍历字符串,就像用 exec() 方法同样。

exec()test() 不一样, String方法 search()replace()match() 并不会用到 lastIndex 属性。实际上, String 方法只是简单地将 lastIndex 属性值重置为0。若是让一 个带有修饰符 g 的正则表达式对多个字符串执行 exec()test(),要么在每一个字符串中 找出全部的匹配以便将 lastIndex 自动重置为零,要么显式将 lastIndex 手动设置为 0(当最后一次检索失败时须要手动设置 lastIndex )。

若是忘了手动设置 lastIndex 的值,那么下一次对新字符串进行检索时,执行检索的起始位置可能就不是字符串的 开始位置,而多是任意位置。固然,若是RegExp不带有修饰符g,则没必要担忧会发生这种状况。一样要记住,ECMAScript 5中,正则表达式直接量的每次计算都会建立一个新的 RegExp对象,每一个新 RegExp对象 具备各自的 lastIndex属性,这势必会大大减小“残留” lastIndex 对程序形成的意外影响。

参考

相关文章
相关标签/搜索