正则速记法

时间 2019-11-06

原文原文链接

给你一篇文章，如何挑选出你想要的字符串呢？你能够从左到右从上到下，一个一个字符读取出来，写一大堆if作判断。这样太麻烦了，正则就是将以上过程抽象出来，用一些特定符号就能表示出大部分规则javascript

对大部分人来讲，正则主要是难记，其实只要对正则符号分类记忆，就会发现核心概念其实特别简单css

注：本文会假设你至少看过一遍正则的文档，若是没看过，能够看mdn（有中文翻译），若是以为mdn排版乱，推荐去https://devdocs.io/javascript/global_objects/regexp学习。本文所使用语言为javascript java

元字符

/a/中的a就是一个元字符，一个元字符匹配一个实体字符，这里的“a”没有特殊含义，就匹配一个英文a less

像/\d/就匹配0到9的全部数字，若是两个连写/\d\d/就能够匹配10到99的全部数字函数

/./能够匹配任何字符性能

集合

假若有一串字符串'0123456789'，我只想匹配其中的'3','6', '9'，这时能够放在集合中/[369]/ 学习

执行后会发现只有3被匹配到，是由于集合中无论写多少东西都表明一个元字符，集合也是一种元字符测试

你可能见过这样都集合/[0-9a-zA-Z_]/它表明匹配全部数字，字母和下划线，它与元字符/\w/的效果是同样的，集合更灵活\w更方便翻译

排除型集合

/[^0-9]/除了数字都匹配（我喜欢叫它否认集合）code

或（多选）

假设我有一大堆书单，我但愿从中匹配出naroto和one piece，那么能够这样写/naroto|one pice/ 竖线表明或，a或b，你也能够写多个a|b|c|d，你固然能够写出0|1|2...|9来匹配全部数字。但要注意和集合的区别，集合是一个元字符，不能匹配单词，|两边能够是多个元字符

分组

我如今有一堆文件，我但愿匹配出后缀是.css和.less的文件，你能够很天然的写出/.css|.less/这样的代码。其实还有一个简便写法/.(c|le)ss/，分组能够将若干个元字符放在同一个做用域中作处理，经过分组咱们能够写出更简练的代码

分组还有一个特殊的用法，思考如何匹配'asd_asd_asd_asd_asd'这种字符串?

答案是/(asd)(_\1)+/，\1是个很是特殊的元字符，表明重复使用第一个分组的匹配结果，\2就表明第二个，以此类推，+加号表示重复一到屡次（这个后面会讲），须要注意的是计数从1开始，\0表明另外的意思（请看文档）

量词

一长串字符中我只想匹配连续的数字，但/\d/只会匹配一个，这时候可使用量词/\d{n,}/，n写几就是几到多，好比{1,}就是1到多。{n}这种写法表示n个相连，匹配2333能够写成/23{3}/

还有几个简写的量词
+表明1到多，等于{1,}
*表明0到多，等于{0,}
?表明0或1个，等于{0,1}

贪婪模式和非贪婪模式

量词有个尴尬的地方，好比用/.*a/去匹配'123a123a'，原本但愿获得'123a'，实际却获得'123a123a'。这是由于任何字符都知足/./加上量词会致使从头匹配到尾，但由于咱们还有其余元字符，因此这时正则引擎会回溯，将已经匹配的结果从后往前一个个拿出来，与剩下的元字符相匹配。
这种模式叫贪婪模式，它可能会产生预期以外的结果和没必要要的性能浪费

解决方案是使用非贪婪模式，在量词后面加?问号能够获得最小结果，如今使用/.*?a/去匹配就能够获得'123a'了。任何量词后均可以使用非贪婪模式

环视

x(?=y) 这个功能有不少种翻译，好比零宽断言，我我的感受比较准确的是“正向确定环视”
x(?!y)正向否认环视

x表明元字符，y也表明元字符，x(?=y)的意思是紧接着y的x，好比'-1a--2b-'，使用/\d(?=a)/去匹配，会获得1;/\d(?!a)/去匹配，会获得2。

这功能怎么用？举个例子，有一段字符串'a(123)b'，我只想要括号内的内容，但不想要括号
我须要匹配到右括号左边的位置，那么我能够写成/(?=\))/(注意括号须要转义)，我不想要左括号/[^(]/，我不关心括号内的内容/.*/，这时组合三个正则就变成了/[^(].*(?=\))/

实际上这个功能匹配的是位置，从匹配到的位置开始找元字符，因此你若是在环视后面加量词是没用的

其余

^和$也是匹配位置的元字符，分别是匹配开头和结尾，好比咱们想匹配文件结尾是.js的文件能够写成/.js$/。匹配http开头的连接能够写成/^http:\/\//

还有一些特殊的\u[\b]\0等，须要你本身看文档

标识符

g：一个正则只会匹配一次，若是加上g标识符就会全局匹配，/\d/g，这个正则是无论两个数字之间隔了什么，都会将全部数字匹配出来

i：不区分大小写/^http:\/\//i就会匹配http://和HTTP://

核心概念就这么多，其余内容请详细查看文档

你觉得这就结束了？其实还有后续哒！

我要继续说环视

还有个神奇的逆向环视没有讲x(?<=y)，由于这是18年才进正式标准的功能，虽然它可能比js年龄大，但js就是不支持你怕不怕！

前面那个/[^(].*(?=\))/能够改为/(?<=y).*(?=\))/

正则最大但坑就是，让新手产生正则无所不能的想法，一个复杂字符串处理总觉得能够经过一个神奇的正则来搞定。

正则不是万能的！

仍是以前的例子，给字符串'a(1\(2(3)'让你取括号内的内容请问你怎么取？首先应该弄清需求，若是正则过于难写，能够用js的字符串处理函数辅助正则，分部操做。另外正则的性能并不高，不是说很复杂的操做写成一行正则性能就比其余方式快了，没有测试就没有发言权

正则理论上是有极限的，举个例子，有字符串1xxxyyyy2让你取{n}个x和{m}个y，n和m是不肯定个数，写成x{1,}y{1,}是没问题的，但若是要求是x{n}y{n}就不行了，好比一个字符串有3个x，你就要取3个y，有4个x，你就要取4个y，单靠正则就没法完成了。

正则难，难在门槛高，门槛高在难记，之因此难记，其实仍是由于反人类的符号让你下意识的排斥它。熟悉正则，正式正则，学会正则，会给你带来超乎想象的便利！