正则表达式和sed命令的用法

时间 2019-11-24

原文原文链接

1、 正则表达式：linux

正则表达式（或称Regular Expression，简称RE）就是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模式。正则表达式

该模式描述在查找文字主体时待匹配的一个或多个字符串。shell

正则表达式做为一个模板，将某个字符模式与所搜索的字符串进行匹配。简单的说，正则表示式就是处理字符串的方法，它是以行为单位来进行字符串的处理行为，正则表示式经过一些特殊符号的辅助，可让使用者轻易的达到搜寻/删除/取代某特定字符串的处理程序。vim、grep、find、awk、sed等命令都支持正则表达式。express

经常使用正则表达式：vim

1、.表明任意单个字符,如：/l..e/与包含一个l，后跟两个字符，而后跟一个e的行相匹配编辑器

grep ‘l..e’ testide

awk ‘/l..e/’ testwordpress

cat test（查看文件）函数

leeet工具

laat

lae

2、^表明行的开始。 ^love 如：与全部love开头的行匹配

3、$表明行的结束。love$ 如：与全部love结尾的行匹配

那么‘^$’ 就表示空行

4、[…]匹配括号中的字符之一

[abc] 匹配单个字符a或b或c

[123] 匹配单个字符1或2或3

[a-z] 匹配小写字母a-z之一

[a-zA-Z] 匹配任意英文字母之一

[0-9a-zA-Z]匹配任意英文字母或数字之一

注意：上面标红色的单个和之一，无论[]里面多复杂，它的结果都是一个字符！

grep ‘l[ae]e’ test

awk ‘/l[ae]e/’ test

能够用^标记作[]内的前缀，表示除[]内的字符以外的字符。好比搜索oo前没有g的字符串的行. 应用 '[^g]oo' 做搜索字符串，^符号若是出现在[]的起始位置表示否认，可是在[]的其余位置是普通字符。[^ab^c] 匹配b或^或c或不是a的任意单个字符

5、* 用于修饰前导字符，表示前导字符出现0次或任意多次

如：'a*grep'匹配全部0个或多个a后紧跟grep的行。“.*”表示任意字符串

6、\?用于修饰前导字符，表示前导字符出现0或1次

a\? 匹配0或1个a

7、\+用于修饰前导字符，表示前导字符出现1或多次

a\+ 匹配1或多个a

8、\{n,m\} 用于修饰前导字符，表示前导字符出现n至m次（n和m都是整数，且n<m）

a\{3,5\} 匹配3至5个连续的a

\{n,m\}还有其余几种形式：

\{n\} 连续的n个前导字符

\{n,\} 连续的至少n个前导字符

9、\ 用于转义紧跟其后的单个特殊字符，使该特殊字符成为普通字符

如：^\.[0-9][0-9]对以一个句点和两个数字开始

例如：

a* 匹配连续的任意（也包括0）个a

a\? 匹配0或1个a

a\+ 匹配1或多个a

a\{3,5\} 匹配3至5个连续的a

\.* 匹配0或多个连续的. \.表示普通字符句点

sed ‘s/^ *[0-9]*//’ test1

history > test1（先生成test1文件）

10、｜表示或 如：a|b|c 匹配a或b或c。如：grep|sed匹配grep或sed

如：egrep ‘grep|sed’ test

11、（），将部份内容合成一个单位组，好比要搜索 glad 或 good能够以下 'g(la|oo)d'

如：egrep ‘g(la|oo)d’ test

综合举例1：

1 Christian Scott lives here and will put ona Christmas party.

2 There are around 30 to 35 people invited.

3 They are:

4 Tom

5 Dan

6 Rhonda Savage

7 Nicky and Kimerly.

8 Steve, Suzanne, Ginger and Larry.

^[A-Z]..$

搜索行以A至Z的一个字母开头，而后跟两个任意字母，而后跟一个换行符的行。将找到第5行。

^ *[A-Z][a-z][a-z]$

搜索以0个或多个空格开头，跟一个大写字母，两个小写字母和一个换车符。将找到第4行的TOM（整行匹配）和第5行。注意，*前面有一个空格。

^[A-Za-z]*[^,][A-Za-z]*$

将查找以0个或多个大写或小写字母开头，不跟逗号，而后跟0个或多个大写或小写字母，而后跟一个换车符。将找到第4和5行。

2、sed命令的用法

sed是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并无改变，除非你使用重定向存储输出。

sed的基本命令：

1．替换: s命令
1.1 基本用法

如： sed 's/day/night/'<old >new
该例子将文件 old 中的每一行第一次出现的 day 替换成 night, 将结果输出到文件 new

s            " 替换 " 命令
/../../      分割符 (Delimiter)
day          搜索字符串
night        替换字符串

其实 , 分割符 "/" 能够用别的符号代替 , 好比 ",", "|" 等 .
如：sed's/\/usr\/local\/bin/\/common\/bin/'<old >new
等价于 sed 's_/usr/local/bin_/common/bin_' <old >new
显然 , 此时用 "_" 做分割符比 "/" 好得多

1.2 用 & 表示匹配的字符串

有时可能会想在匹配到的字符串周围或附近加上一些字符 .
如： sed 's/abc/(abc)/' <old >new

该例子在找到的 abc 先后加上括号 .
该例子还能够写成 sed's/abc/(&)/' <old >new

下面是更复杂的例子 :
sed 's/[a-z]*/(&)/' <old >new

sed 默认只替换搜索字符串的第一次出现 , 利用 /g 能够替换搜索字符串全部

$ sed's/test/mytest/g' example-----在整行范围内把test替换为mytest。若是没有g标记，则只有每行第一个匹配的test被替换成mytest。

$ sed's/^192.168.0.1/&localhost/' example-----&符号表示替换字符串中被找到的部份。全部以192.168.0.1开头的行都会被替换成它自已加 localhost，变成192.168.0.1localhost。

$ sed 's#10#100#g' example-----不论什么字符，紧跟着s命令的都被认为是新的分隔符，因此，“#”在这里是分隔符，代替了默认的“/”分隔符。表示把全部10替换成100。

若是须要对同一文件或行做屡次修改，可使用 "-e" 选项

取得eth0网卡IP地址：

2．删除行：d命令

从某文件中删除包含"how" 的全部行

将/etc/passwd的内容显示并找印行号，同时将2~5删除

附：nl命令在linux系统中用来计算文件中行号。nl能够将输出的文件内容自动的加上行号

若是只要删除第2行，可使用nl /etc/passwd |sed '2d' 来达成，至于如果要删除第 3 到最后一行，则是nl /etc/passwd | sed '3,$d'的啦。

3．增长行：a命令（在指定的行后新增）或i命令（在指定的行前新增）

a的后面能够接字符串，而这些字符串会在新的一行出现

在/etc/passwd的第二行后增长“XXXXX”字样的新行

在/etc/passwd的第二行前增长“XXXXX”字样的新行

若是要同时新增多行，则每行之间要用反斜杠\来进行新行的添加

4、取代行：c命令

c的后面能够接字符串，这些字符串能够取代n1,n2之间的行

5、打印：p命令

sed'/north/p' datafile 默认输出全部行，找到north的行重复打印

sed –n '/north/p'datafile 禁止默认输出，只打印找到north的行

sed-n '5,7p' /etc/passwd仅列出/etc/passwd文件中的第5～7行内容

sed -n "1p;3p;5p;7p;10p;15p"/etc/passwd显示/etc/passwd的1,3,5,7,10,15行

注：sed的-i选项能够直接修改文件中的内容

sed -i ‘23s/test/tset/g’ test.txt用sed修改test.txt的23行test为tset；

sed -i ‘1,3d’ /tmp/*.tmp 删除每一个临时文件的最初三行。

3、grep命令的用法

grep （global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来）是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来.

参数：

1. -ANUM，--after-context=NUM 除了列出符合行以外，而且列出后NUM行。

如: $ grep –A1 panda file (从file中搜寻有panda样式的行，并显示该行的后1行)

2. -BNUM，--before-context=NUM 与-A NUM 相对，但这此参数是显示除符合行以外并显示在它以前的NUM行。如: (从file中搜寻有panda样式的行，并显示该行的前1行)

$ grep -B 1 panda file

3、 -C[NUM], -NUM, --context[=NUM] 列出符合行以外并列出上下各NUM行。

如: (列出file中除包含panda样式的行外并列出其上下2行)

$ grep –C 2 “panda” file

4、 -c, --count 不显示符合样式行，只显示符合的总行数。若再加上-v,--invert-match，参数显示不符合的总行数

5、-i，--ignore-case 忽略大小写差异

6、-n，--line-number 在匹配的行前面打印行号

7、-v，--revert-match 反检索，只显示不匹配的行

8、精确匹配：

例如在抽取字符串“ 48”，返回结果包含诸如484和483等包含“48”的其余字符串，实际上应精确抽取只包含48的各行。

使用grep抽取精确匹配的一种有效方式是在抽取字符串前加\<,在抽取字符串后加\>。假定如今精确抽取48，

方法以下：

#grep '\<48\>' filename

9、-s 不显示不存在或无匹配文本的错误信息

如：执行命令grep "root" /etc/password，由于password文件不存在，因此在屏幕上输出错误信息，若使用grep命令-s开关，可屏蔽错误信息

要用好grep这个工具，其实就是要写好正则表达式，因此这里不对grep的全部功能进行实例讲解，只列几个例子，讲解一个正则表达式的写法。

$ ls -l | grep '^d'
经过管道过滤ls -l输出的内容，只显示以d开头的行。

$ grep 'test' d*
显示全部以d开头的文件中包含test的行。

$ grep 'test' aa bb cc
显示在aa，bb，cc文件中匹配test的行。

$ grep '[a-z]\{5,\}' aa
显示全部包含每一个字符串至少有5个连续小写字符的字符串的行。

$grep ‘t[a|e]st’ filename

显示包含test或tast的全部行。

$grep '\.$' filename

显示以.为结尾的全部行。

4、awk命令：

awk也是一个数据处理工具！相较于 sed 经常做用于一整个行的处理， awk 则比较倾向于一行当中分红数个字段来处理。

.awk语言的最基本功能是在文件或字符串中基于指定规则来分解抽取信息，也能够基于指定的规则来输出数据。

1．命令格式

awk [-F field-separator] 'commands' input-files

其中，[-F域分隔符]是可选的，由于awk使用空格或tab键做为缺省的域分隔符，所以若是要浏览域间有空格的文本，没必要指定这个选项，若是要浏览诸如passwd文件，此文件各域以冒号做为分隔符，则必须指明-F选项，如：awk -F: 'commands' input-file。

注:在linux系统中用环境变量IFS存储分隔符,但根据实际应用也能够改变IFS的值.

例如:

脚本执行结果以下:

awk [-F field-separator] 'commands' input-files

commands 是真正awk命令， input-files 是待处理的文件。

iput_files能够是多于一个文件的文件列表，awk将按顺序处理列表中的每一个文件。

在awk中，文件的每一行中，由域分隔符分开的每一项称为一个域。一般，在不指名-F域分隔符的状况下，默认的域分隔符是空格或tab键。

commands

awk的模式和动做

任何awk语句都由模式和动做组成（awk_pattern { actions }）。
在一个awk脚本中可能有许多语句。

模式部分决定动做语句什么时候触发。处理即对数据进行的操做。若是省略模式部分，动做将时刻保持执行状态。即省略时不对输入记录进行匹配比较就执行相应的actions。

模式能够是任何条件语句或正则表达式等。awk_pattern能够是如下几种类型:

1) 正则表达式用做awk_pattern:/regexp/

例如:awk '/^[a-z]/'input_file

2) 布尔表达式用做awk_pattern，表达式成立时，触发相应的actions执行。

① 表达式中可使用变量(如字段变量$1,$2等)和/regexp/

② 布尔表达式中的操做符:

关系操做符: <> <= >= == !=
匹配操做符: value ~ /regexp/ 若是value匹配/regexp/，则返回真
value!~ /regexp/ 若是value不匹配/regexp/，则返回真
例如: awk '$2 > 10 {print "ok"}' input_file
awk '$3 ~ /^d/ {print"ok"}' input_file

③ &&(与) 和 ||(或) 能够链接两个/regexp/或者布尔表达式，构成混合表达式。!(非) 能够用于布尔表达式或者/regexp/以前。

例如: awk '($1< 10 ) && ($2 > 10) {print "ok"}' input_file
awk '/^d/ || /x$/ {print"ok"}' input_file

模式包括两个特殊字段 BEGIN和END。使用BEGIN语句设置计数和打印头。BEGIN语句使用在任何文本浏览动做以前，以后文本浏览动做依据输入文本开始执行。END语句用来在awk完成文本浏览动做后打印输出文本总数和结尾状态标志。

实际动做在大括号{ }内指明。动做大多数用来打印，可是还有些更长的代码诸如i f和循环语句及循环退出结构。若是不指明采起动做，awk将打印出全部浏览出来的记录。

awk执行时，其浏览域标记为$1，$2...$n。这种方法称为域标识。使用这些域标识将更容易对域进行进一步处理。

使用$1 , $3表示参照第1和第3域，注意这里用逗号作域分隔。若是但愿打印一个有5个域

的记录的全部域，没必要指明$1 , $2 , $3 , $4 , $5，可以使用$0，意即全部域。

为打印一个域或全部域，使用print命令。这是一个awk动做

awk [-F field-separator] 'commands' input-files

awk的运行过程:

① 若是BEGIN 区块存在，awk执行它指定的actions。

② awk从输入文件中读取一行，称为一条输入记录。(若是输入文件省略，将从标准输入读取)

③ awk将读入的记录分割成字段，将第1个字段放入变量$1中，第2个字段放入$2，以此类推。$0表示整条记录。

④ 把当前输入记录依次与每个awk_cmd中awk_pattern比较，看是否匹配，若是相匹配，就执行对应的actions。若是不匹配，就跳过对应的actions，直到比较完全部的awk_cmd。

⑤ 当一条输入记录比较了全部的awk_cmd后，awk读取输入的下一行，继续重复步骤③和④，这个过程一直持续，直到awk读取到文件尾。

⑥ 当awk读完全部的输入行后，若是存在END，就执行相应的actions。

入门实例：

例1：显示/etc/passwd文件中的用户名和登陆shell

若是只是显示/etc/passwd的帐户和帐户对应的shell,而帐户与shell之间以tab键分割

若是只是显示/etc/passwd文件中的用户名和登陆shell, 而帐户与shell之间以逗号分割

注：awk的老是输出到标准输出，若是想让awk输出到文件，可使用重定向。

例2：显示/etc/passwd文件中的UID大于500的全部用户的用户名和登陆shell

例3：若是只是显示/etc/passwd文件中的UID大于500的用户名和登陆shell,而帐户与shell之间以逗号分割,并且在全部行添加列名name,shell,在最后一行添加"blue,/bin/nosh"。

注：

1.awk 后面接两个单引号并加上大括号 {} 来设定想要对数据进行的处理动做

2.awk工做流程是这样的：先执行BEGING，而后读取文件，读入有\n换行符分割的一条记录，而后将记录按指定的域分隔符划分域，填充域，$0则表示全部域,$1表示第一个域,$n表示第n个域,随后开始执行模式所对应的动做。接着开始读入第二条记录······直到全部的记录都读完，最后执行END操做。

思考题：如何打印全部记录（以/etc/passwd中的内容为例）

例4：搜索/etc/passwd有root关键字的全部行

这种是pattern（模式）的使用示例，匹配了pattern(这里是root)的行才会执行action(没有指定action，默认输出每行的内容)。

搜索支持正则表达式，例如找root开头的:

搜索/etc/passwd有root关键字的全部行，并显示对应的shell

这里指定了action是{print $7}

awk内置变量

awk有许多内置变量用来设置环境信息，下面给出了最经常使用的一些变量。

FILENAME awk浏览的文件名

FS 设置输入域分隔符，等价于命令行-F选项

NF 浏览记录的域个数（每一行（$0）拥有的字段总数）

NR 已读的记录数（awk所处理的是第几行数据）

例5：1)查看/etc/passwd第25行第三列和第7列的内容。

awk –F: ‘NR==25{print $1,$7}’ /etc/passwd

2)显示/etc/passwd的1,3,5,7,10,15行？

awk'NR==1||NR==3||NR==5||NR==7||NR==10||NR=15{print $0}' /etc/passwd

除了awk的内置变量，awk还能够自定义变量

例6：统计/etc/passwd的帐户人数

count是自定义变量。以前的action{}里都是只有一个print,其实print只是一个语句，而action{}能够有多个语句，以;号隔开。

这里没有初始化count，虽然默认是0，可是稳当的作法仍是初始化为0:

例7：统计某个文件夹下的文件占用的字节数

若是以M为单位显示:

注意：以上统计没有包括子目录中的文件。

若是想快速查看全部文件的长度及其总和，但要排除子目录，如何实现：

5、函数及脚本的综合应用

1、shell函数：shell容许将一组命令集或语句造成一个可用块，这些块称为shell函数。

函数由两部分组成：函数标题、函数体。

标题是函数名。函数体是函数内的命令集合。

标题名应该惟一；若是不是，将会混淆结果，由于脚本在查看调用脚本前将首先搜索函数调用相应的shell。

2、定义函数的格式为：

函数名（）{

命令1

...

}

若是愿意，可在函数名前加上关键字function，这取决于使用者。

function函数名（）

{

命令1

...

}