学习正则 - golang实现

时间 2019-11-19

原文原文链接

元字符：

表1.经常使用的元字符
代码	说明
.	匹配除换行符之外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

字符转义：

若是你想查找元字符自己的话，好比你查找.,或者*,就出现了问题：你没办法指定它们，由于它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。所以，你应该使用\.和\*。固然，要查找\自己，你也得用\\.golang

例如：deerchao\.net匹配deerchao.net，C:\\Windows匹配C:\Windows正则表达式

重复：

你已经看过了前面的*,+,{2},{5,12}这几个匹配重复的方式了。下面是正则表达式中全部的限定符(指定数量的代码，例如*,{5,12}等)：测试

表2.经常使用的限定符
代码/语法	说明
*	重复零次或更屡次
+	重复一次或更屡次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更屡次
{n,m}	重复n到m次

下面是一些使用重复的例子：编码

Windows\d+匹配Windows后面跟1个或更多数字spa

^\w+匹配一行的第一个单词(或整个字符串的第一个单词，具体匹配哪一个意思得看选项设置).net

字符类：

要想查找数字，字母或数字，空白是很简单的，由于已经有了对应这些字符集合的元字符，可是若是你想匹配没有预约义元字符的字符集合(好比元音字母a,e,i,o,u),应该怎么办？code

很简单，你只须要在方括号里列出它们就好了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(.或?或!)。regexp

咱们也能够轻松地指定一个字符范围，像[0-9]表明的含意与\d就是彻底一致的：一位数字；同理[a-z0-9A-Z_]也彻底等同于\w（若是只考虑英文的话）。htm

下面是一个更复杂的表达式：\(?0\d{2}[) -]?\d{8}。blog

“(”和“)”也是元字符，后面的分组节里会提到，因此在这里须要使用转义。

这个表达式能够匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678等。咱们对它进行一些分析吧：首先是一个转义字符\(,它能出现0次或1次(?),而后是一个0，后面跟着2个数字(\d{2})，而后是)或-或空格中的一个，它出现1次或不出现(?)，最后是8个数字(\d{8})。

分枝条件：

不幸的是，刚才那个表达式也能匹配010)12345678或(022-87654321这样的“不正确”的格式。要解决这个问题，咱们须要用到分枝条件。正则表达式里的分枝条件指的是有几种规则，若是知足其中任意一种规则都应该当成匹配，具体方法是用|把不一样的规则分隔开。听不明白？不要紧，看例子：

0\d{2}-\d{8}|0\d{3}-\d{7}这个表达式能匹配两种以连字号分隔的电话号码：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。

$?0\d{2}$?[- ]?\d{8}|0\d{2}[- ]?\d{8}这个表达式匹配3位区号的电话号码，其中区号能够用小括号括起来，也能够不用，区号与本地号间能够用连字号或空格间隔，也能够没有间隔。你能够试试用分枝条件把这个表达式扩展成也支持4位区号的。

\d{5}-\d{4}|\d{5}这个表达式用于匹配美国的邮政编码。美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之因此要给出这个例子是由于它能说明一个问题：使用分枝条件时，要注意各个条件的顺序。若是你把它改为\d{5}|\d{5}-\d{4}的话，那么就只会匹配5位的邮编(以及9位邮编的前5位)。缘由是匹配分枝条件时，将会从左到右地测试每一个条件，若是知足了某个分枝的话，就不会去再管其它的条件了。

分组

咱们已经提到了怎么重复单个字符（直接在字符后面加上限定符就好了）；但若是想要重复多个字符又该怎么办？你能够用小括号来指定子表达式(也叫作分组)，而后你就能够指定这个子表达式的重复次数了，你也能够对子表达式进行其它一些操做(后面会有介绍)。

(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式，请按下列顺序分析它：\d{1,3}匹配1到3位的数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个总体也就是这个分组)重复3次，最后再加上一个一到三位的数字(\d{1,3})。

IP地址中每一个数字都不能大于255. 常常有人问我, 01.02.03.04 这样前面带有0的数字, 是否是正确的IP地址呢? 答案是: 是的, IP 地址里的数字能够包含有前导 0 (leading zeroes).

不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址。若是能使用算术比较的话，或许能简单地解决这个问题，可是正则表达式中并不提供关于数学的任何功能，因此只能使用冗长的分组，选择，字符类来描述一个正确的IP地址：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

理解这个表达式的关键是理解2[0-4]\d|25[0-5]|[01]?\d\d?，这里我就不细说了，你本身应该能分析得出来它的意义。

反义

有时须要查找不属于某个能简单定义的字符类的字符。好比想查找除了数字之外，其它任意字符都行的状况，这时须要用到反义：

表3.经常使用的反义代码
代码/语法	说明
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x之外的任意字符
[^aeiou]	匹配除了aeiou这几个字母之外的任意字符

例子：\S+匹配不包含空白符的字符串。

<a[^>]+>匹配用尖括号括起来的以a开头的字符串。

后向引用

使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)能够在表达式或其它程序中做进一步的处理。默认状况下，每一个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。

呃……其实,组号分配还不像我刚说得那么简单：

分组0对应整个正则表达式
实际上组号分配过程是要从左向右扫描两遍的：第一遍只给未命名组分配，第二遍只给命名组分配－－所以全部命名组的组号都大于未命名的组号
你可使用(?:exp)这样的语法来剥夺一个分组对组号分配的参与权．

后向引用用于重复搜索前面某个分组匹配的文本。例如，\1表明分组1匹配的文本。难以理解？请看示例：

\b(\w+)\b\s+\1\b能够用来匹配重复的单词，像go go, 或者kitty kitty。这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b)，这个单词会被捕获到编号为1的分组中，而后是1个或几个空白符(\s+)，最后是分组1中捕获的内容（也就是前面匹配的那个单词）(\1)。

你也能够本身指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：(?<Word>\w+)(或者把尖括号换成'也行：(?'Word'\w+)),这样就把\w+的组名指定为Word了。要反向引用这个分组捕获的内容，你可使用\k<Word>,因此上一个例子也能够写成这样：\b(?<Word>\w+)\b\s+\k<Word>\b。

使用小括号的时候，还有不少特定用途的语法。下面列出了最经常使用的一些：

表4.经常使用分组语法
分类	代码/语法	说明
捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
	(?<name>exp)	匹配exp,并捕获文本到名称为name的组里，也能够写成(?'name'exp)
	(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	匹配exp前面的位置
	(?<=exp)	匹配exp后面的位置
	(?!exp)	匹配后面跟的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

咱们已经讨论了前两种语法。第三个(?:exp)不会改变正则表达式的处理方式，只是这样的组匹配的内容不会像前两种那样被捕获到某个组里面，也不会拥有组号。“我为何会想要这样作？”——好问题，你以为为何呢？

零宽断言

地球人，是否是以为这些术语名称太复杂，太难记了？我也有同感。知道有这么一种东西就好了，它叫什么，随它去吧！人若无名，即可专心练剑；物若无名，即可随意取舍……

接下来的四个用于查找在某些内容(但并不包括这些内容)以前或以后的东西，也就是说它们像\b,^,$那样用于指定一个位置，这个位置应该知足必定的条件(即断言)，所以它们也被称为零宽断言。最好仍是拿例子来讲明吧：

断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续进行匹配。

(?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。好比\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing之外的部分)，如查找I'm singing while you're dancing.时，它会匹配sing和danc。

(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。好比(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re之外的部分)，例如在查找reading a book时，它匹配ading。

假如你想要给一个很长的数字中每三位间加一个逗号(固然是从右边加起了)，你能够这样查找须要在前面和里面添加逗号的部分：((?<=\d)\d{3})+\b，用它对1234567890进行查找时结果是234567890。

下面这个例子同时使用了这两种断言：(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调，不包括这些空白符)。

负向零宽断言

前面咱们提到过怎么查找不是某个字符或不在某个字符类里的字符的方法(反义)。可是若是咱们只是想要确保某个字符没有出现，但并不想去匹配它时怎么办？例如，若是咱们想查找这样的单词--它里面出现了字母q,可是q后面跟的不是字母u,咱们能够尝试这样：

\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。可是若是多作测试(或者你思惟足够敏锐，直接就观察出来了)，你会发现，若是q出如今单词的结尾的话，像Iraq,Benq，这个表达式就会出错。这是由于[^u]总要匹配一个字符，因此若是q是单词的最后一个字符的话，后面的[^u]将会匹配q后面的单词分隔符(多是空格，或者是句号或其它的什么)，后面的\w*\b将会匹配下一个单词，因而\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题，由于它只匹配一个位置，并不消费任何字符。如今，咱们能够这样来解决这个问题：\b\w*q(?!u)\w*\b。

零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp。例如：\d{3}(?!\d)匹配三位数字，并且这三位数字的后面不能是数字；\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

同理，咱们能够用(?<!exp),零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp：(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。

请详细分析表达式(?<=<(\w+)>).*(?=<\/\1>)，这个表达式最能表现零宽断言的真正用途。

一个更复杂的例子：(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。(?<=<(\w+)>)指定了这样的前缀：被尖括号括起来的单词(好比多是)，而后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/，它用到了前面提过的字符转义；\1则是一个反向引用，引用的正是捕获的第一组，前面的(\w+)匹配的内容，这样若是前缀其实是的话，后缀就是了。整个表达式匹配的是和之间的内容(再次提醒，不包括前缀和后缀自己)。

注释

小括号的另外一种用途是经过语法(?#comment)来包含注释。例如：2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。

要包含注释的话，最好是启用“忽略模式里的空白符”选项，这样在编写表达式时能任意的添加空格，Tab，换行，而实际使用时这些都将被忽略。启用这个选项后，在#后面到这一行结束的全部文本都将被当成注释忽略掉。例如，咱们能够前面的一个表达式写成这样：

      (?<=    # 断言要匹配的文本的前缀
      <(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)
      )       # 前缀结束
      .*      # 匹配任意文本
      (?=     # 断言要匹配的文本的后缀
      <\/\1>  # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签
      )       # 后缀结束

golang 实现

 1 package lib
 2 
 3 import (
 4     "regexp"
 5 )
 6 
 7 func IsEmail(email string) bool {
 8     if email != "" {
 9         if isOk, _ := regexp.MatchString("^[_a-z0-9-]+(\\.[_a-z0-9-]+)*@[a-z0-9-]+(\\.[a-z0-9-]+)*(\\.[a-z]{2,4})$", email); isOk {
10             return true
11         }
12     }
13 
14     return false
15 }
16 
17 func IsPhone(phoneStr string) bool {
18     if phoneStr != "" {
19         if isOk, _ := regexp.MatchString(`^\([\d]{3}\) [\d]{3}-[\d]{4}$`, phoneStr); isOk {
20             return isOk
21         }
22     }
23 
24     return false
25 }