[命令行工具]正则表达式 Regular Expression

时间 2020-01-16

标签命令行工具正则表达式 regular expression 栏目正则表达式繁體版

原文原文链接

历史

正则表达式出现于理论计算机科学的自动控制理论和形式化语言理论中。在这些领域中有对计算（自动控制）的模型和对形式化语言描述与分类的研究。¹
它能够转化成形式化语言或者肯定型自动机。它们是语义上等价的，能够描述同一种语言。html

Unix RegEx介绍

下面内容主体基于　https://github.com/ziishaned/...git

版权: https://github.com/ziishaned/learn-regex
版权方式: MIT ©  
https://github.com/ziishaned/learn-regex/blob/master/LICENSE.md
做者: Zeeshan Ahmad, https://twitter.com/ziishaned

什么是正则表达式？

正则表达式是一组由字母和符号组成的特殊文本，它能够用来从文本中找出知足你想要的格式的句子。

一个正则表达式是一种从左到右匹配主体字符串的模式。
“Regular expression”可被缩写为“regex”或“regexp”。
正则表达式能够从一个基础字符串中根据必定的匹配模式替换文本中的字符串、验证表单、提取字符串等等。github

想象你正在写一个应用，而后你想设定一个用户命名的规则，让用户名包含字符、数字、下划线和连字符，以及限制字符的个数，好让名字看起来没那么丑。
咱们使用如下正则表达式来验证一个用户名：正则表达式

以上的正则表达式能够接受 john_doe、jo-hn_doe、john12_as。express

但不匹配Jo，由于：编程

它包含了大写的字母J
长度小于３

1. 基本匹配

正则表达式其实就是在执行搜索时的格式，它由一些字母和数字组合而成。
例如：一个正则表达式 the，它表示一个规则：由字母t开始，接着是h，再接着是e。api

"the" => The fat cat sat on the mat.编程语言

在线练习函数

正则表达式123匹配字符串123。它逐个字符的与输入的正则表达式作比较。工具

正则表达式是大小写敏感的，因此The不会匹配the。

"The" => The fat cat sat on the mat.

元字符	描述
.	句号匹配任意单个字符除了换行符。
[ ]	字符种类。匹配方括号内的任意字符。
[^ ]	否认的字符种类。匹配除了方括号里的任意字符
*	匹配>=0个重复的在*号以前的字符。
+	匹配>=1个重复的+号前的字符。
?	标记?以前的字符为可选.
{n}	匹配n个大括号之间的字符.
{n,m}	匹配num个大括号之间的字符 (n <= num <= m).
{n,}	匹配num个大括号之间的字符 (n <= num).
(xyz)	字符集，匹配与 xyz 彻底相等的字符串.
\|	或运算符，匹配符号前或后的字符.
\	转义字符,用于匹配一些保留的字符 `[ ] ( ) { } . * + ? ^ $ \|`
^	从开始行开始匹配.
$	从末端开始匹配.

简写	描述
.	除换行符外的全部字符
\w	匹配全部字母数字，等同于 `[a-zA-Z0-9_]`
\W	匹配全部非字母数字，即符号，等同于： `[^\w]`
\d	匹配数字： `[0-9]`
\D	匹配非数字： `[^\d]`
\s	匹配全部空格字符，等同于： `[\t\n\f\r\p{Z}]`
\S	匹配全部非空格字符： `[^\s]`
\f	匹配一个换页符
\n	匹配一个换行符
\r	匹配一个回车符
\t	匹配一个制表符
\v	匹配一个垂直制表符
\p	匹配 CR/LF（等同于 `\r\n`），用来匹配 DOS 行终止符
\b	匹配一个词的边界，不会消耗任何字符只匹配一个位置
\B	匹配不是单词开头或结束的位置

符号	描述
?=	正先行断言-存在 Positive Lookahead
?!	负先行断言-排除 Negative Lookahead
?<=	正后发断言-存在 Positive Lookbehind
?<!	负后发断言-排除 Negative Lookbehind

标志	描述
i	忽略大小写。
g	全局搜索。
m	多行修饰符：锚点元字符 `^` `$` 工做范围在每行的起始。

[命令行工具]正则表达式 Regular Expression

历史

Unix RegEx介绍

什么是正则表达式？

1. 基本匹配

2. 元字符 Meta Characters

2.1 点运算符 . Full stop

2.2 字符集 Character set

2.2.1 否认字符集 Negated character set

2.3 重复次数 Repetitions

2.3.1 * 号 The Star

2.3.2 + 号 The Plus

2.3.3 ? 号 The Question Mark

2.4 {} 号 Braces

2.5 (...) 捕获组 特征标群 Capturing Group

2.5.1 非特征标群 非捕获组 Non capturing group

2.6 | 或运算符 Alternation

2.7 转码特殊字符 Escaping special character

2.8 锚点 Anchors

2.8.1 ^ 号 Caret

2.8.2 $ 号 Dollar

3. 简写字符集 Shorthand Character Sets

4. 零宽度断言（先后预查） Lookaround

4.1 ?=... 正先行断言 Positive Lookahead

4.2 ?!... 负先行断言 Negative Lookahead

4.3 ?<= ... 正后发断言 Positive Lookbehind

4.4 ?<!... 负后发断言 Negative Lookbehind

5. 标志 Flags

5.1 忽略大小写 Case Insensitive

5.2 全局搜索 Global search

5.3 多行修饰符 Multiline

6. 贪婪匹配与惰性匹配（Greedy vs lazy matching）

额外补充

2.1 点运算符 `.` Full stop

2.3.1 `*` 号 The Star

2.3.2 `+` 号 The Plus

2.3.3 `?` 号 The Question Mark

2.4 `{}` 号 Braces

2.5 `(...)` 捕获组特征标群 Capturing Group

2.5.1 非特征标群非捕获组 Non capturing group

2.6 `|` 或运算符 Alternation

2.8.1 `^` 号 Caret

2.8.2 `$` 号 Dollar

4.1 `?=...` 正先行断言 Positive Lookahead

4.2 `?!...` 负先行断言 Negative Lookahead

4.3 `?<= ...` 正后发断言 Positive Lookbehind

4.4 `?<!...` 负后发断言 Negative Lookbehind