再看正则表达式

时间 2019-11-07

原文原文链接

正则表达式

前言

平时js编码时，对字符串的操做随处可见。正则表达式即是一种用来匹配字符串的一把利剑。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，咱们就认为它“匹配”了。若是您是一位老司机，那么正则表达式确定耳熟能详，可是若是您是刚上车的话，那么我们就接下来探讨探讨。正则表达式

为什么要使用正则表达式

测试字符串内的模式
替换文本
基于模式匹配从字符串中提取子字符串

正则表达式的建立

主要有下面两种方式，常常食用的是字面量形式。固然构造函数的更加灵活，能够根据条件动态生成正则。数组

new RegExp(pattern [, flags]) RegExp构造函数建立
/pattern/flags 正则字面量建立
RegExp(pattern [, flags])

RegExp对象建立函数

var reg = new RegExp('A+b', g);
reg.test('saAb')  //true

字面量测试

var reg = /A+b/g;
reg.test('saAb') //true

常见的术语

元字符

元字符	描述
.	查找单个字符，除了换行和行结束符。
w	查找单词字符。
W	查找非单词字符。
d	查找数字。
D	查找非数字字符。
s	查找空白字符。
S	查找非空白字符。
b	匹配单词边界。
B	匹配非单词边界。
0	查找 NUL 字符。
n	查找换行符。
f	查找换页符。
r	查找回车符。
t	查找制表符。
v	查找垂直制表符。
xxx	查找以八进制数 xxx 规定的字符。
xdd	查找以十六进制数 dd 规定的字符。
uxxxx	查找以十六进制数 xxxx 规定的 Unicode 字符。

量词

量词	描述
n+	匹配任何包含至少一个 n 的字符串。
n+?	?开启懒惰模式，开启最小匹配
n*	匹配任何包含零个或多个 n 的字符串。
n*?	?开启懒惰模式，开启最小匹配
n?	匹配任何包含零个或一个 n 的字符串。
n{X}	匹配包含 X 个 n 的序列的字符串。
n{X,Y}	匹配包含 X 至 Y 个 n 的序列的字符串。
n{X,}	匹配包含至少 X 个 n 的序列的字符串。
n$	匹配任何结尾为 n 的字符串。
^n	匹配任何开头为 n 的字符串。
?=n	匹配任何其后紧接指定字符串 n 的字符串。举个例子，/Jack(?=Sprat)/，若是"Jack"后面跟着sprat，则匹配之。
?!n	匹配任何其后没有紧接指定字符串 n 的字符串。举个例子，/d+(?!.)/ 只会匹配不被点（.）跟随的数字。

特殊字符

特殊字符	描述
$	匹配输入字符串的结尾位置。若是设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符自己，请使用 &dollar;。
( )	标记一个子表达式的开始和结束位置。子表达式能够获取供之后使用。要匹配这些字符，请使用 ( 和 )。
*	匹配前面的子表达式零次或屡次。要匹配 * 字符，请使用 *。
+	匹配前面的子表达式一次或屡次。要匹配 + 字符，请使用 +。
.	匹配除换行符 n 以外的任何单字符。要匹配 . ，请使用 . 。
[	标记一个中括号表达式的开始。要匹配 [，请使用 [。
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 ?。
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'n' 匹配换行符。序列 '\' 匹配 ""，而 '(' 则匹配 "("。
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合。要匹配 ^ 字符自己，请使用 ^。
{	标记限定符表达式的开始。要匹配 {，请使用 {。
	指明两项之间的一个选择。要匹配	，请使用 \	。

经常使用定位符

定位字符	描述
^	匹配输入字符串开始的位置。若是设置了 RegExp 对象的Multiline 属性，^ 还会与 n 或 r 以后的位置匹配。
$	匹配输入字符串结尾的位置。若是设置了 RegExp 对象的 Multiline 属性，$ 还会与 n 或 r 以前的位置匹配。
b	匹配一个字边界，即字与空格间的位置。
B	非字边界匹配。

修饰符

修饰字符	描述
g	执行全局匹配（查找全部匹配而非在找到第一个匹配后中止）。
i	执行对大小写不敏感的匹配。
m	执行多行匹配。

字符集合 [ ]

方括号用于查找某个范围内的字符：编码

字符	含义
[xyz]	一个字符集合，也叫字符组。匹配集合中的任意一个字符。你可使用连字符'-'指定一个范围。例如，[abcd] 等价于 [a-d]，匹配"brisket"中的'b'和"chop"中的'c'。
`[^xyz]`	一个反义或补充字符集，也叫反义字符组。也就是说，它匹配任意不在括号内的字符。你也能够经过使用连字符 '-' 指定一个范围内的字符。例如，¹ 等价于 ²。第一个匹配的是 "bacon" 中的'o' 和 "chop" 中的 'h'。

分组（子表达式）

描述一个正确的IP地址：/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/。上面便使用了分组功能。.net

一般使用分组的话，匹配子表达式而且会捕获匹配项。这被称为捕获括号；有捕获括号便会有非捕获括号，下面这种形式便会开启。(?:x)；设计

反向引用

捕获表达式的一个用法即是，反向引用。code

对一个正则表达式模式或部分模式两边添加圆括号将致使相关匹配存储到一个临时缓冲区中，所捕获的每一个子匹配都按照在正则表达式模式中从左到右出现的顺序存储。缓冲区编号从 1 开始，最多可存储 99 个捕获的子表达式。每一个缓冲区均可以使用 n 访问，其中 n 为一个标识特定缓冲区的一位或两位十进制数。regexp

例如： \b(\w+)\b\s+\1\b 便会捕获相邻的相同单词。对象

转义

若是你想查找元字符自己的话，好比你查找.,或者*,就出现了问题：你没办法指定它们，由于它们会被解释成别的意思。这时你就得使用来取消这些字符的特殊意义。所以，你应该使用.和*。固然，要查找自己，你也得用\\
```
deerchao\.net匹配deerchao.net，C:\\Windows匹配C:\Windows
```

经常使用方法

test() 测试当前正则是否能匹配目标字符串。 //返回true ,false
注意test的不可重复性
exec 检索字符串中指定的值。返回找到的值，并肯定其位置。
若是 exec() 找到了匹配的文本，则返回一个结果数组。不然，返回 null。此数组的第 0 个元素是与正则表达式相匹配的文本，第 1 个元素是与 RegExpObject 的第 1 个子表达式相匹配的文本（若是有的话），第 2 个元素是与 RegExpObject 的第 2 个子表达式相匹配的文本（若是有的话），以此类推。除了数组元素和 length 属性以外，exec() 方法还返回两个属性。index 属性声明的是匹配文本的第一个字符的位置。input 属性则存放的是被检索的字符串 string。咱们能够看得出，在调用非全局的 RegExp 对象的 exec() 方法时，返回的数组与调用方法 String.match() 返回的数组是相同的。

支持正则表达式的string方法

search
stringObject.search(regexp)
返回值: stringObject 中第一个与 regexp 相匹配的子串的起始位置。没有找到返回-1.
match
stringObject.match(regexp)
返回值：存放匹配结果的数组。该数组的内容依赖于 regexp 是否具备全局标志 g。
replace 方法用于在字符串中用一些字符替换另外一些字符，或替换一个与正则表达式匹配的子串
stringObject.replace(regexp/substr,replacement)
返回值：一个新的字符串，是用 replacement 替换了 regexp 的第一次匹配或全部匹配以后获得的。
split

经常使用正则表达式

校验数字的表达式
1. 列表项目
2. 数字：^[0-9]*$
3. n位的数字：^d{n}$
4. 至少n位的数字：^d{n,}$
5. m-n位的数字：^d{m,n}$
6. 零和非零开头的数字：^(0|1-9*)$
7. 非零开头的最多带两位小数的数字：^(1-9*)+(.[0-9]{1,2})?$
8. 带1-2位小数的正数或负数：^(-)?d+(.d{1,2})$
9. 正数、负数、和小数：^(-|+)?d+(.d+)?$
10. 有两位小数的正实数：^[0-9]+(.[0-9]{2})?$
11. 有1~3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$
12. 非零的正整数：^[1-9]d$ 或 ^([1-9][0-9]*){1,3}$ 或 ^+?1-9$
13. 非零的负整数：^-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
14. 非负整数：^d+$ 或 ^[1-9]\d*|0$
15. 非正整数：^-[1-9]d*|0$ 或 ^((-\d+)|(0+))$
16. 非负浮点数：^d+(.d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
17. 非正浮点数：^((-d+(.d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
18. 正浮点数：^[1-9]d.d|0.d[1-9]d$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
19. 负浮点数：^-([1-9]d.d|0.d[1-9]d)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
20. 浮点数：^(-?d+)(.d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
校验字符的表达式
1. 汉字：^[u4e00-u9fa5]{0,}$
2. 英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
3. 长度为3-20的全部字符：^.{3,20}$
4. 由26个英文字母组成的字符串：^[A-Za-z]+$
5. 由26个大写英文字母组成的字符串：^[A-Z]+$
6. 由26个小写英文字母组成的字符串：^[a-z]+$
7. 由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$
8. 由数字、26个英文字母或者下划线组成的字符串：^w+$ 或 ^\w{3,20}$
9. 中文、英文、数字包括下划线：^[u4E00-u9FA5A-Za-z0-9_]+$
10. 中文、英文、数字但不包括下划线等符号：^[u4E00-u9FA5A-Za-z0- 9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
11. 能够输入含有^%&',;=?$\"等字符：[^%&',;=?$x22]+
12. 禁止输入含有~的字符：[^~\x22]+
特殊需求表达式
1. Email地址：^w+([-+.]w+)@w+([-.]w+).w+([-.]w+)*$
2. 域名：a-zA-Z0-9{0,62}(/.a-zA-Z0-9{0,62})+/.?
3. InternetURL：[a-zA-z]+://³ 或 ^http://([w-]+.)+[w-]+(/[w-./?%&=])?$
4. 手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])d{8}$
5. 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX)：^((d{3,4}-)|d{3.4}-)?d{7,8}$
6. 国内电话号码(0511-440522二、021-87888822)：d{3}-d{8}|d{4}-d{7}
7. 电话号码正则表达式（支持手机号码，3-4位区号，7-8位直播号码，1－4位分机号）: ((d{11})|^((d{7,8})|(d{4}|d{3})-(d{7,8})|(d{4}|d{3})-(d{7,8})-(d{4}|d{3}|d{2}|d{1})|(d{7,8})-(d{4}|d{3}|d{2}|d{1}))$)
8. 身份证号(15位、18位数字)，最后一位是校验位，可能为数字或字符X：(^d{15}$)|(^\d{18}$)|(^d{17}(d|X|x)$)
9. 账号是否合法(字母开头，容许5-16字节，容许字母数字下划线)：^a-zA-Z{4,15}$
10. 密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^[a-zA-Z]w{5,17}$
11. 强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.d)(?=.[a-z])(?=.*[A-Z]).{8,10}$
12. 日期格式：^d{4}-d{1,2}-d{1,2}
13. 一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$
14. 一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

abc ↩
a-c ↩
s ↩