正则表达式做为一个强大的字符匹配工具,应该是咱们每一个程序猿都应该掌握的工具。使用正则表达式能够很是灵活的处理咱们须要匹配到的字串而没必要使用contain()、index()等方法屡次的操做,下面就来介绍一些经常使用的正则表达式。正则表达式
最简单的匹配就是你给什么样的字符就匹配什么样的字符,例如若想在“hello world hello”中匹配“hello”的话 ,那么就只会匹配到hello这个字符。这里有个须要注意的就是绝大多数的正则表达式引擎只会返回第一个匹配到的结果,若是须要匹配全部的字符,不一样的引擎有不一样的处理方法可供调用。工具
若是只想匹配任意一个单个字符,可使用正则表达式中的元字符".",这个字符表示能够匹配任意的一个字符·。注意全部的元字符在正则表达式中都有特殊的定义,若是想匹配字符自己须要加上转义字符"",例如 \.url
若是想要匹配一组字符中的任意一个,可使用[ ]表示法。使用[]表示匹配括号中的任意一个字符,这里有个须要注意点就是方括号中的元字符不须要转义,它只表明它自己。例如[abcde.]匹配这些字符中的任意一个。文档
方括号还有一种特殊的语法,能够表示字符区间。例如想要匹配全部的数字可使用[0-9]表示全部的数字,[a-z]表示全部的小写字母。-连字符是在方括号中的一种特殊元字符,在方括号外只表示符号自己不须要转义。字符串
固然也能够对一组字符取非操做,表示匹配不属于该组字符中的任意一个。使用^表示取非,例如1表示匹配非数字字符。table
上面说过有有些字符在正则表示式中有特殊的含义,比较经常使用的元字符以下:class
元字符 | 含义 |
---|---|
d | 匹配任意一个数字字符,等价于[0-9] |
D | 匹配任意一个非数字字符,等价于[^ 0-9] |
w | 匹配任意一个字母字符或者下划线,等价于[a-zA-Z_] |
W | 任何一个非字母或者下划线,等价于[^a-zA-Z] |
s | 任何一个空白字符,等价于[fnrtv] |
S | 任何一个非空白字符,等价于[^fnrtv] |
对于某些字符,可能须要重复匹配的,正则表达式也提供了一些特殊元字符知足这些需求。ftp
元字符 | 含义 |
---|---|
+ | 匹配一个或者多个字符,例如w+表示匹配至少一个字符 |
* | 匹配任意多个字符 |
? | 匹配零个或者一个字符,也就是最多出现一次 |
除了上面的任意匹配次数以外,咱们还能够规定匹配次数的范围。这是使用{ }大括号实现的。语法
一个字符只须要出现3次,例如咱们的电话号码,13112345678,,只要使用"d{8}"匹配便可。引用
一样能够设定一个匹配的最小和最大匹配次数, 例如d{3,8}
规定了最小值,没有最大值表示最少匹配多少次,能够省略最大值表示d{3,}
在重复匹配中有个须要特别注意的地方,咱们的重复匹配的元字符默认都是贪婪型的,也就是匹配的越多越好。好比有个字符串以下,“ahb<kjlaf[]>lacanj>”,咱们想要匹配"< >"之间的全部字符,使用模式"<.*>"匹配,最后获得结果是<kjlaf[]>lacanj>,并无在第一次遇到">"的时候结束匹配而是选择了最长的匹配,这就是贪婪型的匹配。相对于贪婪型的匹配,还有一种懒惰型的匹配,使用元字符?表示。
贪婪型 | 懒惰型 |
---|---|
* | *? |
+ | +? |
{n,} | {n,}? |
b 用来匹配一个单词的开始或者结尾。
B 用来匹配不是一个单词边界
用来定义字符串边界的元字符有两个:匹配字符串开头的^,匹配字符串结尾的$.
分行匹配模式使得正则表达式引擎把行分隔符看成一个字符串分隔符来对待。在分行匹配模式下,^能够匹配每一行的开始,$能够匹配每一行的末尾。在使用时候(?m)必须出如今匹配模式的开头部分。
对于前面提到的一些元字符,它们有一个限制,就是这些字符只能修饰它旁边的一个字符,若是须要修饰的是一段字符的话就须要使用子表达式了。把一个表达式划分为一系列的子表达式,这些子表达式能够当成独立的元素使用,子表达式使用()括起来。好比须要检测有多个abc字符的重复模式能够写做"(abc)+".
还有一种是管道符号 |,这个符号表示多个字符序列中的任意一个序列,例如19|20d{2},表示的就是以19或者是20开头的任意4个数字。
有些状况下咱们须要匹配的字符后半段是依赖前半段的。好比<h1>ghflahgfla</h1><h2>jlhgoiy</h2>,咱们须要匹配的字符是h[n]标签的内容,若是使用h[1-9]w*h[1-9]这样的模式是能够匹配到,可是碰到像<h1>gagofgao<h2>这样的错误的标签使用该模式依然能够匹配获得。像这种依赖与前面的匹配字符的形式咱们须要使用回溯引用的方式。
仍是这个例子,咱们能够这样匹配 (h[1-9])w*1,这里有一个1是什么意思呢? 对于这个符号前面的子表达式也就()扩起来的模式,,咱们能够按照前后顺序一次标注为1,2,3....等等,1表示的就是第一个匹配到的子表达式的值。也就是若是匹配到的是h1,那么后面1表明的就是h1.
对于一些须要匹配的结果,咱们预先不知道它的值,只知道它出如今一些特殊标记的区间内,好比获取全部url中全部的schema模式,如ftp://,http://,https://等等,这个时候可使用先后查找。
还有一些比较高级的用法,使用的场景很少,使用上面的语法基本能够对付经常使用的模式匹配。
参考文档:
<正则表达式必知必会>