正则表达式第一篇：元字符

时间 2019-12-08

标签正则表达式一篇字符栏目正则表达式繁體版

原文原文链接

规则表达式（Regular Expression），又称做正则表达式，一般用于检索、替换符合指定规则的文本，正则表达式定义的规则，称做模式（Pattern），即正则表达式的做用是从文本中查找到符合模式的文本。正则表达式

一，正则表达式的元字符

正则表达式定义的模式，是由"\"+普通字符构成的，把“\”字符称做转义字符，是由于它把普通的字符转义为有特殊含义的元字符。注意，正则表达式是区分大小写的，能够经过表达式选择来忽略大小写限制。spa

1，经常使用元字符.net

用以匹配特定的字符（字母，数字，符号），注意字母是区分大小写的：htm

. 匹配任意字符（不包括换行符）
^ 匹配开始位置，多行模式下匹配每一行的开始
$ 匹配结束位置，多行模式下匹配每一行的结束
\b 匹配位于单词开始或结束位置的空字符
\B 　匹配不是单词开头和结束的位置
\d 匹配一个数字，至关于 [0-9]
\D 匹配非数字,至关于 [^0-9]
\s 匹配任意空白字符，至关于 [ \t\n\r\f\v]
\S 匹配非空白字符，至关于 [^ \t\n\r\f\v]
\w 匹配数字、字母、下划线中任意一个字符，至关于 [a-zA-Z0-9_]
\W 匹配非数字、字母、下划线中的任意字符，至关于 [^a-zA-Z0-9_]

2，重复字符或分组blog

指定前面一个字符或分组重复的次数：教程

* ：重复零次或更屡次
+ ：重复一次或更屡次
? ：重复零次或一次
{n} ：重复n次
{n,} ：重复n次或更屡次
{n,m} ：重复n到m次

3，分组，转义，分支文档

这些字符有特定的含义和用途：字符串

() ：用小括号表示一个分组
\ ：转义字符，将特殊字符转移为普通字符，例如："\(" 表示小括号“（”，小括号再也不做为特殊字符
| ：分支，子表达式之间是“或”的关系
[...] ：指定限定字符列表，一个字符必须匹配列表中任意一个字符，在中括号中指定匹配的字符列表，例如：[aeiou] 一个字符必须aeiou中的任意一个；
[-]：连字符，在字符组中，连字符出如今字符中间，表示连续的字符序列，例如，[0-9]表示从0到9的数字；
[^... ] ：指定排除字符列表，一个字符不能是排除列表中的任意一个字符，中括号中指定排除的字符列表，例如：[^aeiou] 一个字符不能是aeiou中的任意一个；

二，匹配字符

匹配字符是指在元字符所在的位置处，匹配一个字符：get

. 匹配任意字符，不包括换行符
\d 匹配一个数字，至关于 [0-9]
\D 匹配非数字,至关于 [^0-9]
\s 匹配任意空白字符，至关于 [ \t\n\r\f\v]
\S 匹配非空白字符，至关于 [^ \t\n\r\f\v]
\w 匹配数字、字母、下划线中任意一个字符，至关于 [a-zA-Z0-9_]
\W 匹配非数字、字母、下划线中的任意字符，至关于 [^a-zA-Z0-9_]
\\ 转义字符，跟在其后的字符将失去做为特殊元字符的含义，例如\\.只能匹配.，不能再匹配任意字符

注意：正则表达式是区分大小写的，元字符的大写和小写形式表示的含义是不一样的；文本字符的大小写也是不一样的。it

元字符其实是由字符“\”和普通字符构成的，“\”称做转义字符，也就是说，“\”的做用是把普通字符转换为特殊的字符。因为元字符也是文本中的普通字符，当须要匹配这些特殊字符时，例如，文本中包含"\","."等特殊字符时，必须使用转义字符，把特殊字符转义为普通字符。对于转义字符自己，\\表示一个“\”。

使用\s匹配全部空白字符，包括：空格符，制表符，换行符和回车符。

三，匹配位置

元字符中匹配位置的元字符主要是：

^ 匹配开始位置，多行模式下匹配每一行的开始
$ 匹配结束位置，多行模式下匹配每一行的结束
\b 匹配位于单词开始或结束的位置

匹配位置的元字符不占用字符，只是匹配一个位置，例如，\b 表示匹配一个位置，并不占用任何字符，这个位置的一侧是单词字符，一侧为非单词字符。

四，字符组

字符组是若干字符的组合，表示只匹配其中一个字符：

[...] 字符组，一个字符的集合，可匹配其中任意一个字符
[ - ] 连字符，表示一个范围
[^...] 排除字符

1，字符组

若是要匹配字符grey和gray，可使用字符组： gr[ae]y，该正则表达式的意思是：先找到字符gr，而后跟着一个a或e，最后是一个字符y。

注意：在字符组之外，普通字符（如gr[ae]y中的g和r）都有接下来是（and then）的意思，这与字符组内部的状况是彻底相反的。字符组的内容是在同一个位置可以匹配的若干字符，因此他的意思是“或”。如“[0123456789]”就是匹配1到9之间的任意一个数字。若是“<H[1234]>”就是用来匹配<H1>，<H2>，<H3>，<H4>。

2，连字符

在字符组内部“-”（连字符）出如今两个字符中间，表示一个范围，例如：

“<H[1234]>”与“<H[1-4]>”是彻底同样的；
[0-9]和[a-z]是经常使用的匹配数字和小写字母的简便方式
多重范围也是容许的,如“[0123456789abcdeABCDE]“能够写做”[0-9a-eA-E]“

注意：只有在字符组内部，连字符才是元字符，不然他就是只能匹配普通的连字符号。连字符还有一个例外，即便在字符组内部，若是连字符出如今字符组的开头（或排除型字符组的开头，下面会讲，如[^-]），那也不是元字符而只是一个普通字符。一样的道理，问号和点号（后面会讲到这两个元字符）一般被当作元字符处理，但在字符组里则不是如此。只有连字符和^(下面立刻讲到，是排除字符)才多是字符组里的元字符(可是转义符，字符组简记法仍然有效，即[\da-zA-Z]或[^\da-zA-Z]或[\\"]中的\仍然有转义的含义，\d仍然表明数字，\\"仍然表明字符串中的“\"”单独的\不会匹配任何字符，\\会匹配字符'\')。至关于字符组内部有一个本身独立的小世界，有本身的规则。

3，字符组内的排除字符

用“[^…]”取代“[…]”,这个字符组就会匹配任何未列出的字符。例如”[^1-8]”匹配除了1到8之外的任何字符。注意：这句话有两层含义，一个是排除1-8字符，另外一个是必定要匹配一个字符。
例子：匹配q后面不是u的字符，正则是”q[^u]”。那么qi会被匹配。那Qantas呢？Iraq呢？答案是这两个都不会被匹配，一个是由于Q是大写，一个是由于q在最后，后面没有除了u之外的任何字符。再次注意，排除型字符组也是要匹配一个字符的。

五，量词

量词用于设置匹配前面一个字符的次数：

* 匹配前一个元字符0到屡次
+ 匹配前一个元字符1到屡次
? 匹配前一个元字符0到1次
{m,n} 匹配前一个元字符m到n次

问号，加号和星号统称为量词，表示前面一个字符的重复次数。

1，可选字符 ?

这些元字符，只用于匹配相邻的前一个字符；若是要匹配多个字符，须要使用()，那么用于表示()内的字符重复，例如：

对于正则 colou?r，表示color或colour， “u?”表示：u要么出现一次，要么不出现，元字符？只做用于前面紧邻的元素；
对于正则 4(th)?，用于表示4或4th，(th)?表示：th要么出现一次，要么不出现，当元字符？前面紧邻的元素是()时，把()做为一个元素来对待。

把()做为一个总体来看待，是一个元素，括号内的元素能够不少。

2，“+(加号)”和”*(星号)”

+和*的做用与？相似，元字符”+”表示“前面紧邻的元素出现一次或屡次”；而元字符”*”表示“前面紧邻的元素不出现或出现任意屡次”，换种说法就是”*”表示匹配尽量多的次数，但若是一次都不匹配也不要紧。”+”表示匹配尽量多的次数，但若是一次都不匹配就报告失败。

3，区间量词

区间量词“{min, max}” 表示重复次数的范围，其中min为下限，若是min为空，表示没有下限；max为上线，若是max为空，表示没有上限。例如，对于正则 ”a{3,12}”表示可以允许a出现3到12次，用区间量词来表示其余量词：问号对应“{0,1}”，加号对应”{1,}”，星号对应”{0,}”

六，选择分支

元字符“|”，表示“或（or）”关系，表示从多个候选的子表达式中，只须要匹配一个。子表达式的范围是由()来限制的，若是没有()，那么以元字符“|”，把表达式分割为两个子表达式，例如：

“Bob”和“Robert”是两个表达式，经过元字符"|"把这两个表达式组合成一个表达式：“Bob|Robert”，表示只须要匹配其中任意一个子表达式便可。
对于上面的“gr[ea]y”例子，还能够写做“grey|gray”或者“gr(a|e)y”，后者用括号来划定多选结构的范围
请注意，“gr[a|e]y”不符合咱们的需求，在这里，“|”只是一个和“a”与“e”同样的普通字符，在字符组内部|不是元字符。

“gr[ea]y”与“gr(a|e)y”的例子可能会让人以为多选结构与字符组没太大的区别，可是不要混淆这两个概念。一个字符组只能匹配目标文本中的单个字符，而每一个多选结构自身多是完整的正则表达式，均可以匹配任意长度的文本。

比较”^From|Subject|Date:*”和”^(From|Subject|Date):*”会发现匹配结果大不相同，第一个表达式由3个多选分支构成，能匹配”^From”或”Subject”或”Date:*”,实用性不大。咱们但愿在每个多选分支前都有脱字符，以后都有”:*”，因此应该使用括号来限制这些多选分支： ”^(From|Subject|Date):*”，含义是匹配以“From:*”或“Subject:*”或“Date:*”开头的文本行。

七，分组

()是分组元字符，最多见的用途是：

限制多选项的范围，如“gr(a|e)y”;
将若干字符组合为一个单元，受问号或星号之类量词的做用，如：”(cat|dog)+”

还有一个做用是环视，下文分享。

参考文档：

<基础-1> 正则表达式：元字符

正则表达式30分钟入门教程

正则表达式匹配不包含某些字符串的技巧

正则表达式 第一篇：元字符