初探正则表达式

时间 2019-11-09

标签初探正则表达式栏目正则表达式繁體版

原文原文链接

正则表达式--regular expression

说到正则表达式，不少前端小伙伴们是望而却步或者浅尝而止，感受其难以理解。其实正则表达式并无那么复杂，只要你清晰地知道你想要解决的问题并学会使用正则表达式，那么你就能够轻易地解决这些问题。html

正则表达式在线理解工具

用途

正则表达式（简称regex）是一种工具和其余工具同样，他是为了解决某一类专门的问题发明的。前端

例如：git

你正在搜索一个文件中的size单词或者想要替换全部的size单词，可是不想要替换包括size的单词好比fontsize这样的就不替换。
你想要检查一个表单中邮箱或者手机号是不是正确的语法格式。
你只想搜索某个文件里特定位置的某个单词，好比行首或者行尾。

这些问题实际上是咱们写程序时候常常能遇到的，咱们也能够经过条件处理和字符串操做来解决它们，可是你的解决方案会十分的复杂。web

可是，这些问题咱们均可以使用一些精心构造的正则表达式语句来解决。正则表达式

什么是正则表达式

简单来讲正则表达式是一些用来匹配和处理文本的字符串。它是文本处理方面功能最强大的工具之一。正则表达式语言用来构造正则表达式，正则表达式用来完成搜索和替换的操做。express

如下的例子都是合法的正则表达式：工具

.ber
.
www\.tyweb\.top
[a-zA-z0-9_.]*
<[Hh]1>.*</[Hh]1>
\r\n\r\n
\d{3,3}-\d{3,3}-\d{4,4}

匹配单个字符串

1. 匹配纯文本

- 文本 -

hello world！hello web！spa

- 正则表达式 -

hello3d

- 结果 -

hello world！hello web！code

这里使用正则表达式的是纯文本，它将匹配原始文本里面的全部 hello。

字母大小写的问题：正则表达式是区分大小的，因此 hello 不匹配 Hello，不过绝大数的正则表达式的实现也支持不区分大小写的匹配操做，好比 JavaScript 中可使用 i 标志来强制执行一次不区分字母大小写的搜索。

2. 匹配任意字符串

- 文本 -

web1
web2
ty
wee
wee
web3df
1web2

- 正则表达式 -

web.

- 结果 -

web1
web2
ty
wee
wee
web3df
1web2

在正则表达式中特殊自负床用来给出要搜索的内容，. 能够匹配任何一个单个的字符。固然，在同一个正则表达式中容许出现多个 .，而且它既能够连续出现，也能够间隔这出如今模式的不一样位置。

3. 匹配特殊字符串

刚刚咱们有说到 . 的用法，而且一些特殊字符有一些特殊的用法，那么问题来了，若是咱们在须要匹配的字符串中有这些字符串，而咱们有想要匹配出来怎么办呢。

咱们须要想办法高速正则表达式你须要的是 . 自己而不是他在正则表达式中的特殊含义。因此咱们在它前面加上一个 \（反斜杠）来对它进行转义。

- 文本 -

web1
2web2
ty
wee
web3df
1web.2

- 正则表达式 -

.web\.

- 结果 -

web1
2web2
ty
wee
web3df
1web.
2

匹配一组字符串

1. 匹配多个字符串中的一个和利用字符区间

上面咱们有说过如何匹配单个字符串，可是若是如今有一个文件列表。咱们只想找出.是包含咱们想要字母的文件怎么办？看例子：

- 文本 -

aweb.html
cweb.html
ty.html
wee.html
web3.html
1web.html

- 正则表达式 -

[ac]web\.html

- 结果 -

aweb.html
cweb.html
ty.html
wee.html
web3.html
1web.html

能够看到咱们这里使用 [ac]做为开头，这个集合将只匹配字符 a 或 c 。咱们能够多处使用[]来使得咱们的表达式更加灵活，固然咱们是须要根据须要来作的。

固然咱们若是想要匹配a到z的话固然不多是写那么多字母模式[a~z]是彻底等价的，相同道理的还有[0~9]。

2. 取非匹配

字符集合一般用来指定一组必须匹配其中之一的字符。可是某些场合，咱们须要反过来作，给出一组不须要获得的字符，换句话说，除了那个字符集合里的字符，其余字符均可以匹配。

- 文本 -

aweb.html
cweb.html
ty.html
wee.html
web3.html
1web.html

- 正则表达式 -

[^0~9]web\.html

- 结果 -

aweb.html
cweb.html
ty.html
wee.html
web3.html
1web.html

3. 使用元字符串

元字符串是一些在正则表达式里有特殊含义的字符，相似 . ， ] 因此这些字符就没法用来表示自身，固然以前咱们也说过咱们在元字符串的前面加上一个反斜杠\来进行转义，让其匹配自身。
好比下面这个例子咱们想匹配 arr[0] 。

- 代码 -

var arr = new Array();

console.log(arr[0].length);

- 正则表达式 -

arr\[0\]

固然这个例子有点小题大作，咱们平时状况下遇到同时匹配 arr[1] arr[2] arr[3] 等状况才会用到正则。

4. 匹配空白字符

元字符	说明
[b]	回退（并删除）一个字符（Backspace键）
f	换页符
n	换行符
r	回车符
t	制符表（Tab按键）
v	垂直制表符

通常状况来讲咱们匹配 \r \n \t 的状况稍微多见一些。

5. 匹配特定的字符类别

元字符	说明
d	任何一个数字字符（等价于 `[0~9]`）
D	任何一个非数字字符（等价于 `[^0~9]`）
w	任何一个字母数字字符（大小写都可）或下划线字符（等价于`[a-zA-Z0-9_]`）
W	任何一个非字母数字字符或非下划线字符（等价于`[^a-zA-Z0-9_]`）
s	任何一个空白字符（等价于`[\f\n\r\t\v]`）
S	任何一个非空白字符（等价于`[^\f\n\r\t\v]`）

6. 匹配十六或者八进制数值

这里就不详细介绍，咱们须要知道的hi正则能作到这一点相似匹配十六进制 \x0A 其实和等价于 \n ，匹配八进制 \011 等价于 \t 。

7. 使用POSIX字符

首先：JavaScrip是不支持在正则表达式中使用POSIX字符的。

稍做了解，POSIX 字符类是一种简写的形式

字符类	说明
`[:alnum:]`	任何一个字母或者数字（等价于 `[a-zA-Z0-9]` ）
`[:alpha:]`	任何一个字母（等价于 `[a-zA-Z]` ）
`[:blank:]`	空格或者制表符 (等价于 `[\t ]` )
`[:cntrl:]`	ASCII控制字符（ASCII0到31加上127）
`[:digit:]`	任何一个数字（等价于 `[0-9]`）
`[:graph:]`	和 `[:print:]` 同样可是不包括空格
`[:lower:]`	任何一个小写字母（等价于 `[a-z]` ）
`[:print:]`	任何一个可打印字符
`[:punct:]`	不属于 `[:alnum:]` 和 `[:cntrl:]` 的任何一个字符
`[:space:]`	任何一个空白字符（等价于 `[^\f\n\r\t\v ]` ）
`[:upper:]`	任何一个小写字母（等价于 `[A-Z]` ）
`[:xdigit:]`	任何一个十六进制数字（等价于 `[a-fA-F0-9]` ）

重复匹配

从以前所了解的匹配规则中咱们学会了使用各类元字符，字符集，字符类去匹配单个字符。可是当咱们想要匹配出一个相似 loulan@qq.com 这样的邮箱呢？

1. 匹配一个或者多个字符

- 文本 -

hello everyone, you can email me to loulan@qq.com or loulou@qq.com.

- 正则表达式 -

\w+@\w+\.\w+

- 结果 -

hello everyone, you can email me to loulan@qq.com or loulou@qq.com.

想要匹配同一个字符或者字符集的屡次重复（不包括0次），只要简单的给这个字符或者字符集加上一个 + 字符做为后缀便可。好比 [0-9] 匹配一个数字， [0-9]+ 匹配一个或者多个连续的数字。

须要注意的是给字符集加上 + 后缀的时候必须放在字符集 [] 的外面。否则就是匹配或者 + 的单个字符了。

其实咱们刚刚的这个表达式若是遇到 ty.top.@qq.com 就会出现问题。仔细的你会在下面找到答案。

2. 匹配零个或者多个字符

先看一个实例，这段的匹配出现了小问题。 .loulan@qq.com 带上了咱们不须要的 . 。

- 文本 -

hello everyone, you can email me to ty.top@qq.com or loulou@qq.com.

- 正则表达式 -

[\w.]+@[\w.]+\.\w+

- 结果 -

hello everyone, you can email me to ty.top@qq.com or .loulou@qq.com.

其实这种匹配模式须要使用 * 来进行匹配他的用法和 + 同样，可是它能匹配该字符或者字符集零次或者屡次出现的状况。

- 文本 -

hello everyone, you can email me to ty.top@qq.com or loulou@qq.com.

- 正则表达式 -

\w+[\w.]*@[\w.]+\.\w+

- 结果 -

hello everyone, you can email me to ty.top@qq.com or .loulou@qq.com.

能够稍微理解下这个表达式每一个字符所表明的意义，以及为何能解决咱们的问题。

3. 匹配零个或者一个字符

有了一个多个，零个多个，怎么会少了零个或者一个字符的匹配呢。用法和+ *同样，只不过规则不同了。咱们看下区别：

- 文本 -

http://www.baidu.com/

https://www.baidu.com/

- 正则表达式 -

http://[\w./]+

- 结果 -

http://www.baidu.com/
https://www.baidu.com/

- 文本 -

http://www.baidu.com/

https://www.baidu.com/

- 正则表达式 -

https?://[\w./]+

- 结果 -

http://www.baidu.com/

https://www.baidu.com/

有些同窗会发现其实在字符集中有些元字符并无进行转义，可是匹配仍是成功了。通常来讲在字符集中间的的元字符会被解释成普通字符，不须要转义，固然，转义了的话也没有任何坏处，也仍是能匹配成功的。

4. 防止过分匹配

咱们看一个问题：

- 文本 -

<i>left</i>  middle <i>right</i>

- 正则表达式 -

<[iI]>.*</[iI]>

- 结果 -

left middle right

咱们分析一下这个问题，实际上是由于.其实匹配了中间部分的全部字符而没有适可而止将他们分开进行匹配。那么咱们怎么让它适可而止呢？

- 文本 -

<i>left</i>  middle <i>right</i>

- 正则表达式 -

<[iI]>.*?</[iI]>

- 结果 -

left middle right

很简单的咱们在 * 后面加了 ? 就可让它再也不贪婪，咱们把加上 ? 的 * 叫作他的惰性版本。

其实刚刚说的这些都是正则匹配里的数字元量符号，同样的使用方法有如下数字元量符：

数字元量符	说明
*	匹配前一个字符或者字符集的零次或者屡次出现
+	匹配前一个字符或者字符集的一次或者屡次出现
?	匹配前一个字符或者字符集的一次或者零次出现
{n}	匹配前一个字符或者字符集的n次重复
{m,n}	匹配前一个字符或者字符集的至少m次至多n次的重复
{n, }	匹配一个字符或者字符集的n次或者更屡次重复
*?	`*`的惰性版本
+?	`+`的惰性版本
{n, }?	`{n, }`的惰性版本

位置匹配

咱们遇到这么一个问题，咱们只想匹配 arry 这个单个单词，可是它匹配到了咱们不想要的内容:

- 文本 -

arry in tyarryIt.com

- 正则表达式 -

arry

- 结果 -

arry in tyarryIt.com

1. 单词边界

咱们须要一个规则来限制边界，\b能够作到，他限制了一个单词的开始或者结尾

- 文本 -

arry in tyarryIt.com

- 正则表达式 -

\barry\b

- 结果 -

arry in tyarryIt.com

这里咱们只匹配 arry 自己，因此咱们在先后都加入 \b 。固然咱们能够只在开头或者结尾使用来找到以咱们想要单词做为开头或者结尾的单词。

须要注意的是 \b只匹配位置不匹配字符。有些正则还支持另外两种元字符 \< \> 只匹配单词的开头和结束，不过支持他们的正则表达式引擎并很少。

与之相反\B代表不匹配一个单词边界。

2. 字符串边界

用来定义字符串边界的元字符有两个，一个是用来定义字符串开头的 ^ 另外一个是匹配字符串结尾的 $ 。其使用方法是和单词边界一致的。

位置元字符	说明
`^`	匹配字符串的开头
`\A`	匹配字符串的开头
`$`	匹配字符串的结束
`\Z`	匹配字符串的结束
`\<`	匹配单词开头
`\>`	匹配单词结束
`\b`	匹配单词边界
`\B`	和`\b`相反

使用子表达式

子表达式

让咱们思考一下下面这个正则：

- 文本 -

arry innbsp;nbsp;tyarryIt.com

- 正则表达式 -

nbsp;{2, }

从表达式中咱们能知道写这个表达式的本意是想匹配连续的 nbsp;。可是这个表达式并不能达到咱们预期的结果，由于 {2, } 只会匹配其前面紧挨的字符。因此只能匹配nbsp;;这样的字符串，可是没法匹配 nbsp;nbsp; 这样的字符串。

上面这个表达式就引出了子表达式的概念，子表达式是一个更强大的表达式的一部分，把表达式划分红一系列的表达式是为了把那些子表达式看成一个独立的元素来使用。子表达式必须使用 () 来括起来。

这样再让咱们完美解决上面的需求：

- 文本 -

arry innbsp;nbsp;tyarryIt.com

- 正则表达式 -

(nbsp;){2, }

这样的话 (nbsp;) 是一个表达式。它将被视为一个独立的元素，而他后面的 {2, } 将做用域这个子表达式。

子表达式的嵌套

子表达式容许嵌套，而且容许多重的嵌套，这种嵌套，在层次上理论没有限制，可是在咱们的工做中固然是须要适可而止的。太多的嵌套会让匹配模式变得难以阅读和理解。

回溯引用-先后一致匹配

先后一致的问题让咱们不由想到HTML的标签：

- 文本 -

<body>
<h1>it is h1</h1>
<h2>it is h2</h2>
<h3>it is h3</h3>
<h4>it is h4</h5>
</body>

- 正则表达式 -

<[hH][1-6]>.*?</[hH[1-6]]>

这多是咱们在想到匹配标签时候内心的第一想法。

可是，细心的同窗会发现咱们最后的一个标签 <h4>***</h5> 由于手误写错了。可是思考一下咱们发现，这种错误的地方也会被成功匹配。那咱们怎样才能先后一致进行匹配呢？

回溯引用匹配

下面这个表达式把字符串中重复的几个单词匹配出来了。

- 文本 -

Try you you best and and you will win win the game.

- 正则表达式 -

[ ]+(\w+)[ ]+\1

- 结果 -

Try you you best and and you will win win the game.

咱们来分析一下上面的表达式，[ ]+ 匹配一个或者多个空格，\w+ 匹配一个或者多个字母或者数字，随后，[ ]+ 匹配一个或者多个空格，而 (\w+) 又是一个子表达式，固然这里子表达式不是用来作重复匹配的，这里只是把这部分表达式单独划分出来以便在后面进行引用。最后一部分 \1 这就是一个回溯引用，而它引用的是前面划分出来的那个子表达式，他的意思是当前面的 \w+ 匹配到 you 的时候他也匹配 you，前面的\w+ 匹配到 and 的时候他也匹配 and。固然若是有多个子表达式 \1 \2 \3 分别表明模式里的第一，第二，第三个表达式，咱们能够把回溯引用想象成一个变量的重复调用。

先后查找：

往前查找

- 文本 -

https://www.tyweb.top/

http://www.tyweb.top/

ftp://ftp.tyweb.top/

- 正则表达式 -

.+(?=:)

- 结果 -

https://www.tyweb.top/

http://www.tyweb.top/

ftp://ftp.tyweb.top/

在上面的正则表达式中 .+ 匹配任意文本，子表达式 ?=: 匹配 : ，可是须要注意的是 : 并无出如今最终的结果中，咱们用?=:代表的是，只要找到 : 就能够了，不要包括在最终的匹配结果里。用术语来讲就是“不消费”它。

日后查找

?<= 用来作向后查找，用法和向前查找大同小异。

往前日后查找相结合

咱们直接匹配标签中间的文本：

- 文本 -

hello

- 正则表达式 -

(?<=<[bB]>).*(?=</[bB]>)

嵌入条件

正则表达式里的条件要用 ? 来定义。事实上，大家一家见过几种很是特定的条件了。

? 匹配前一个字符或者表达式
/= 和 ?<= 匹配前面或者后面的文本，若是它存在的话。

嵌入条件语法也使用了 ? ,由于嵌入条件不外乎下面两种状况

根据一个回溯引用来进行条件处理
根据一个先后查找来进行条件处理

元字符	说明
()	定义一个子表达式
n	匹配第n个子表达式
?=	向后查找
?<=	向前查找
?!	负向前查找
?<!	负向后查找
?()	条件(if then)

?()| : 条件(if then else)