正则表达式用法 http://www.java3z.com/cwbwebhome/article/article8/Regex/Java.Regex.Tutorial.htmlhtml
正则表达式语法 http://msdn.microsoft.com/zh-cn/library/ae5bf541(VS.80).aspxjava
正则表达式在线测试工具 http://www.ostools.net/regexweb
从概念上来讲,正则表达式也是一门小巧而精炼的语言,它能够用来简化检索特定的字符串,替换特定字符等功能,有许多开发语言工具,都内嵌支持正则表达式。那么一个正则表达式,到底是什么?其实它就是一个字符串,但这个字符串具备特定含义。正则表达式
所谓字面值,就是没有任何转义,查找的对象就是其自己,好比正则表达式 abc
,查找的结果就是返回要查找字符串中 a, b, c三个字母连在一块儿的字符串。又如,123 就是查找到 123 这个子串。工具
.
在正则表达式中表示匹配任意字符,很类似于通配符*
。若是咱们查找a.b这个正则表达式,咱们能够找到全部开头和结尾为a,b,中间是任意字符的字符串,好比abc,adc,a2c等。测试
若是你在一个正则表达式中看到有一些字符被[]括号括起来,那么他们的含义将再也不是简单的字面值,他们表示某一个被括号中属性约束的字符。好比[123456],这个正则表达式表示找到1-6中的任意一个字符,又好比a[bd]c,这表示查找abc或者adc。spa
注意:.net
在字符类中字符的顺序和重复性都不是咱们关心的。[123]和[2233111],含义是如出一辙的。code
句号在字符类中表示的就是其自己,[.]
就是查找一个句号。orm
若是咱们须要查找一个数字,[0123456789],这样作是能够达到目的的,但这写起很是麻烦,并不符合正则表达式小巧的特性,这时咱们可使用区间符号来简化,[0-9]
和上面的式子意义彻底同样。一样,咱们能够[a-zA-Z]
,表示任意一个字母。
注意:
区间的范围应该有意义,[a-1]这样的区间并没有任何意义,尽管它在语法上可能没有错误;
区间左右两端对应的是字符,并非数字,好比[2-41],这个式子的含义是找到2-4的一个数字或者1,和[1-4]是同样的。
^
在正则表达式中表示取反,这个很好理解,[^a]
,表示找到除了a以外的任意字符。[^0-9],表示找到一个非数字的字符。
注意:
^必须在中括号内,及字符类属性中使用。
^是将后面的总体做为取反条件的。
某些符号具备和字符类相同的含义:
\d和[0-9]相同
\w和[0-9A-Za-z_]相同 表示
数字,字母或者下划线**\s
表示匹配空格,tab**和换行等不可见符。
与此相对的\D,\W,\S,则表示上述条件的取反状况。
乘法集的最大用处也是简化正则表达式,用大括号表示。好比,a{2},表示找到 aa 这个字符串。
注意:
乘法集是已前面总体为乘法条件的,好比 [ab]{2},不是简单的比配aa,bb,而是和[ab][ab]含义是相同的,会匹配ab,ba,aa,bb。
乘法集和字符类相同,也能够用区间进行简化,可是符号不相同。a{1,3},表示找到a,aa,aaa这三个字符串。a{0,1}是合法的,表示找到空字符,或者a。
注意:
乘法集的"越长越好"属性:乘法集具备这样的特色,好比a{2,4},若是我搜索myaaaa,它不会找到aa后就中止,而是会找到aaaa。
乘法集的"所有获取"属性:好比 a{2.4},若是搜索 myaayouaaaa,它会找到 aa 和 aaaa。
乘法集支持开区间,a{1,} 是合法的,表示找到任何 a 相连的字符串。
这个符号的含义和 {0,1} 彻底相同,123?4,表示匹配 1234 或者 124 ;
这个符号的含义和 {0,} 相同,好比.*
表示通配一切字符串。
这个符号和{1,}相同。
|
符号表示或的关系,好比 abc|edf,表示找到 abc 或者 def ;
小括号在正则表达式中表示组合,好比(a|b|c)d,表示找到ad, bd, cd,能够将小括号的做用理解为优先级。
\b
表示单词的边界,好比 \b[a-z]{3}\b ,表示匹配一个三个字母的小写单词。
单单的一个^
符号表示的是行的开头,$
表示行的结束。
注意:
[^]是非法的,[$]表示匹配一个$符号。
上面说了这么多正则表达式的语法规则,咱们如今来作下总结:
字面值:直接查找的字符,好比123, avb。
字符类:描述字符的一些属性,好比[123], [a-z], \d, \w, \s, . 。
乘法集:简化表达式,好比 {0,3}, ?, +, *。
或和组合:好比(a|b|v)。
单词,行的边界\b ^ $
. \ [ ] { } ? * + | ( ) ^ $
三、字符类中元字符列表
[ ] \ - ^
最后,还有一个特别特别重要的字符咱们没考虑到,若是咱们要查找元字符怎么办,在正则表达式中还有一个转义字符”",若是咱们要查找. 只要查找 \.
同理\[\]
是查找”[]“这个字符串。若是要查找”",再加一个转义字符就好:\\
。