Linux 下 grep 命令的正则表达式规范

时间 2019-11-06

原文原文链接

使用单个字符串来描述、匹配一系列符合某个句法规则的字符串,这就是正则表达式。Linux 的 grep 命令是一种查找过滤工具，用于在文件中查找指定模式的字符串，其支持正则表达式。

通配符和正则表达式的区别

在谈正则表达式以前，首先说一下通配符和正则表达式的区别，两者容易混淆。曾经我把通配符认为就是正则表达式，在本该使用统配符的地方意图使用正则表达式，因为没能达到想要的结果，这才意识到不对劲。通配符通常用于linux的shell命令中，例如： linux

grep hello *

这表示在当前目录下的全部文件中查找含“hello”字符串的文件的行。下面列出一些通配符的含义： git

[a-z]或[12]：匹配方括号中指定范围内的单个字符或方括号列出的其中一个字符。
[!9]：不匹配方括号中所列字符或指定范围内的单个字符。
*：匹配0个字符或多个字符。
？：匹配任何单个字符，且不能为空字符。

正则表达式分类

一、基本的正则表达式（Basic Regular Expression 又叫 Basic RegEx 简称 BREs）

二、扩展的正则表达式（Extended Regular Expression 又叫 Extended RegEx 简称 EREs）

三、Perl 的正则表达式（Perl Regular Expression 又叫 Perl RegEx 简称 PREs）

其实咱们在大多数高级编程语言中所使用的正则表达式都源自Perl。实际上，正则表达式从Perl衍生出一个显赫的流派，叫作PCRE（Perl Compatible Regular Expression）。其余高级语言大多基于此修改或者扩展。而 Unix/Linux 下的工具大多采用POSIX规范，同时，POSIX规范又可分为两种流派，即 BREs 和 EREs。

正则表达式 Extended 规范

一、字符类

.   匹配任意一个字符
[] 匹配括号中的任意一个字符
\- 用在[]中，表示字符范围
^   若是位于[]的开头，则匹配除去括号中字符以外的一切字符
[[:xxx:]]   grep 工具预约义的一些命名字符类，例如 [[:alpha:]] 匹配一个字母，[[:digit:]] 匹配一个数字

二、数量限定符

?   紧跟在它前面的单元匹配零次或一次
\+ 紧跟在它前面的单元匹配一次或屡次
\* 紧跟在它前面的单元匹配零次或屡次
{N}     紧跟在它前面的单元应精确匹配N次 [1-9][0-9]{2} 匹配从100 到999 的整数
{N,}    紧跟在它前面的单元至少要匹配n次
{,M}    紧跟在它前面的单元至多匹配m次
{N,M}   紧跟在它前面的单元至少匹配n次，至多匹配m次

三、位置限定符

^   匹配行首的位置
$   匹配行末的位置
\<   匹配单词开头的位置
\>   匹配单词结尾的位置
\b 匹配单词开头或结尾的位置
\B 匹配非单词开头和结尾的位置

四、其余特殊字符

\ 转义字符，普通字符转义为特殊字符，特殊字符转义为普通字符
() 将正则表达式的一部分括起来组成一个单元，能够对整个单元使用数量限定符
| 链接两个表达式，表示或的关系

以上介绍的是grep正则表达式的 Extended 规范，Basic 规范也有这些语法，只是字符 ?+{}|() 应解释为普通字符，要表示上述特殊含义则须要加 \ 转义。若是用 grep 而不是 egrep，而且不加 -E 参数，则应该遵守Basic 规范来写正则表达式。固然，若是是 grep -F，则只搜索固定字符串而不搜索正则表达式模式，不会按正则表达式语法解析后边的参数，grep -F 等价于 fgrep。

最后须要强调的一点是，grep 找的是包含某一模式的行，而不是彻底匹配某一模式的行。也就是说，grep 的正则表达式匹配是以行为单位的。正则表达式

一些示例

搜索以小写字母开头的行

grep -n '^[a-z]' temp.txt

-n 参数表示输出时显示匹配的行号 shell

搜索开头不是英文字母的行

grep -n '^[^a-zA-Z]' temp.txt

搜索空行

grep -n '^$' temp.txt

搜索以 g 开头和结尾的字符串在的行

grep -n 'g.*g' temp.txt

搜索g开头和结尾，中间是至少一个o的字符串

grep -n 'goo*g' temp.txt