从零开始学正则（五）

时间 2019-12-24

原文原文链接

壹 ❀ 引html

我在从零开始学正则（四）一文中讲述了正则匹配的回溯法，以正则匹配过程引出了正则书写也会存在性能问题，并阐述了贪婪匹配，惰性匹配以及分支匹配时与回溯的中中关系。固然，对于初学者而言除了能写出正则之外，能读懂任意一段正则也是很是重要的。那么本篇文章主要针对正则表达式拆分展开分析，相信你们在阅读以后再面对各类变态长度的正则时，都能有理可据，化繁为简的拆分理解。git

说在前面，正则学习系列文章均为我阅读老姚《JavaScript正则迷你书》的读书笔记，文中全部正则图解均使用regulex制做。那么本文开始！github

贰 ❀ 正则的解构与操做符正则表达式

编程语言通常都有操做符（百科），但只要说到操做符就不得不讨论操做符的优先级，由于一堆操做符在一块儿，系统本身也得知道谁该先执行，谁要后执行。编程

那么正则中的操做符是什么呢？正则中的操做符体如今正则结构中，而结构又由特殊字符与普通字符构成。浏览器

JavaScript中的正则结构大体有这些：字符字面量、字符组、量词、锚、分组、分支、反向引用。也就是前几章节讲过的知识点，咱们简单复习一遍：编程语言

字符字面量：当咱们具体匹配某个字符时所写的正则字段，好比a匹配字段“a”，123匹配字段“123”，\. 匹配小数点等。性能

字符组：当某个位置的字符多是多种状况之一时，好比匹配任意一个数字，可使用字符组[0-9]，可简写为\d。除此以外还有反义字符组，好比匹配除了数字以外的任意字符，能够用[^0-9]，可简写为\D。学习

量词：当某个字符须要出现屡次时可以使用量词加以修饰，好比数字可能出现1次或更屡次，能够写成\d{1,}，简写即是\d+。spa

锚：若是说字符字面量以及字符组是匹配的基础，那么锚的功能也是如此，只是前者用于匹配字符，而锚用于匹配位置。好比咱们要匹配数字前面的位置能够写(?=\d)。

分组：分组表示一个总体，使用圆括号()表示，好比(ab)+表示字母ab至少会出现一次。

分支：分支使用管道符 | 实现，好比分支 12|34，正则会先尝试使用12进行匹配，若是行不通就会切换成分支34进行匹配，注意分支是惰性匹配。

其中涉及到的操做符以及优先级以下：

操做符描述	操做符	优先级
转义符	\	1
圆括号和方括号	(p)、(?:p)、(?=p)、(?!p)、[p]	2
量词	{m}、{m,n}、{m,}、?、+、*	3
位置和序列	^、$、\元字符、通常字符	4
管道符	\|	5

知道了这些，咱们来从优先级的角度解析正则表达式 /ab?(c|de*)+|fg/

因为不存在转义符，咱们经过优先级第二高的括号来拆分正则，首先分组 (c|de*) 是一个总体，而在分组中字母 e 后紧跟了一个量词 *，所以 e* 是一个总体，表示e会出现任意次。最后括号中使用了优先级最低的管道符，因此正则在运行时，必定是先看字母 c ，再看 de*，这里造成了分支。

分析完分组中的内容，再看其它部分，能够获得a、b?、(c|de*)+、f、g这些组合结构，而 ab?(c|de*)+ 和 fg 又使用管道符分割，因此这是两个比较大的分组。固然就算不这么拆分，经过前面的学习解析起来也不是什么难事。咱们结合图解来确认下：

叁 ❀ 结构与操做符可能犯错的点

1.分支不使用分组包裹

在匹配整个字符串时，咱们一般会添加脱字符^与美圆符$，若是咱们要匹配字符 abc 或 def 时，容易写成 /^abc|def$/，而此时正则的意思是匹配分支^abc或者def$，它的图解是这样：

而正确的写法应该是利用分组将分支结构进行包裹，因此应该是这样，图解为：

2.量词接量词

这个是我前面常犯得错误....量词与量词不能紧接着写。好比咱们但愿匹配数字1，2，3其一，,且这段数字长度为3的倍数，正则很容易写成 /^[123]{3}+$/ ，而后你会收到浏览器红色问候：

var regex = /^[123]{3}+$/;
regex.test(123123);

而正确的写法是 [abc]{3} 是一个总体，因此须要使用分组的括号包裹，完整就是这样：

var regex = /^([123]{3})+$/;
regex.test(123123);// true

3.元字符转义问题

正则中的元字符包括 ^、$、.、*、+、?、|、\、/、(、)、[、]、{、}、=、!、:、- 等。在咱们须要匹配这些字符时，到底需不须要转义呢？固然全转义确定也不会有问题：

var string = "^$.*+?|\\/[]{}=!:-,";
var regex = /\^\$\.\*\+\?\|\\\/\[\]\{\}\=\!\:\-\,/;
regex.test(string); //true

开发中是否转义仍是根据实际状况决定，好比咱们真的要匹配字符 “[123]” 时，能够在 [ 前添加转义符，表示这不是一个反义字符组。

var string = "[123]";
var regex = /^\[123\]$/;
regex.test(string); //true

固然上述正则其实能够简写成 /^\[123]$/ ，由于 [ 前已被转义，后面的 ] 没法成对，因此能够省略转义。

假设咱们要匹配 “[^123]” 时能够写成这样，注意 ^ 的转义不可少：

var string = "[^123]";
var regex = /^\[\^123\]$/;
regex.test(string); //true

同理，假设要匹配 “{1,3}”，正则咱们能够写成 /\{3,5}/ 。

注意有个特例，当匹配圆括号时，先后转义符都得加，由于只写一个会报错。看个例子：

var string = "(123)";
var regex = /^\(123\)$/;
regex.test(string); //true

肆 ❀ 总

这一章节内容的内容还算简单，了解正则的操做符划分对于复杂的正则拆分很是有帮助。固然在正则熟练后，咱们甚至能一眼看出正则所传递的匹配含义。咱们经过思惟导图简单作个整理：

最后留两个思考题，请写出匹配身份证的正则，以及尝试分析正则 /^((0{0,2}\d|0?\d{2}|1\d{2}|2[0-4]\d|25[0-5])\.){3}(0{0,2}\d|0?\d{2}|1\d{2}|2[0-4]\d|25[0-5])$/。

那么本文就写到这里，我要学习第六章节了。