sed 命令详解

sed
用于筛选和转换文本的流编辑器

描述:
sed是一个流编辑器,流编辑器对一个输入流执行基本的文本转换(输入流来自文件或者管道行)。虽然在某些方面相似于不少可运行脚本的编辑器,可是sed的工做方式是每次只处理一个输入(能够理解为一个模式空间),所以更高效。可是sed在管道中过滤文本的做用使它明显区别于其余类型编辑器。

命令格式:
sed [OPTION] {script} file

选项
-n, --quiet, --silent
    抑制模式空间的自动打印
    例如
echo -e "abc\ndef" | sed 'p'
#输出 abc
#    abc
#    def
#    def

echo -e "abc\ndef" | sed -n 'p'
#输出 abc
#    def
-e script, --expression=script
    添加脚本到将要被执行的命令
    例如
echo -e "abc\ndef" | sed -n -e 's/abc/ghi/' -e 'p'
# 输出 ghi
#     def
-f script-file, --file=script-file
    将脚本文件的内容添加到要执行的命令
--follow-symlinks
    处理符号连接
-i[SUFFIX], --in-place[=SUFFIX]
    编辑文件(若是提供了SUFFIX ,则对原文件先进行备份)
    例如
sed -i_bak '1d' aaa
# 将先生成aaa的备份文件aaa_bak
-l N, --line-length=N
    为’l‘命令指定但愿的行折叠长度
--posix
    禁用全部的GNU扩展。
-r, --regexp-extended
    在脚本中使用扩展的正则表达式。
-s, --separate
    将文件视为单个独立的文件,而不是将它们视为整个连续的字符流。
-u, --unbuffered
    从输入中加载尽量少许的数据而且更频繁的刷新
--help
    显示帮助而且退出
--version
    输出版本信息并退出

命令

0地址命令
: label
    为b和t命令定义标签。
#comment
    注释一行
}
    块结束符号

0地址或者1地址命令
=
    打印当前的行号
a \
    text
    追加新行
    追加文本,(模式空间内的)每一行后都将追加(新行)反斜杠后的文本。
    例如
echo "abc" | sed 'a\def'
# 输出 abc
#     def
i \
    text
    插入新行
    插入文本, (模式空间内的)每一行前都将插入(新行)反斜杠后的文本。
    例如
echo "abc" | sed 'i\def'
# 输出 def
#     abc
q [exit-code]
    当即退出sed脚本不处理任何更多的输入, 除非自动打印是未禁用的状况下当前的模式空间将被打印。退出码参数是一个GNU扩展。
Q [exit-code]
    当即退出sed脚本不处理任何更多的输入。退出码参数是一个GNU扩展。
r filename
    追加从filename读取的文本
R filename
    追加从filename读取的一行。每次调用命令从文件中读取一行。这是一个GNU扩展。

接受地址范围的命令
{      
    块命令的开始,
b label
    跳转到标签,若是label省略,跳转到命令结尾。
c \
   text
   行替换
   用text替换选中的行,每一行都将被反斜杠后的文本替换。
   例如
echo -e "abc\ndef" | sed 'c\ghi'
# 输出 ghi
#     ghi
d
    删除模式空间。启动下一个循环。
D
    若是模式空间内没有换行,开启一个新的循环如同d命令被发布。不然,删除模式空间的文本直到换行,而且在新产生的模式空间中重启循环,不从输入读入新行。
    这个怎么理解呢?当模式空间有多行时,D命令每次只删除一行,而后从下一行开始新的循环,这里的下一行是模式空间中的第二行,因此不从输入读入新行。
    而d命令就会把模式空间所有删除。而后从下一行开始循环,这里的下一行就是从输入读取的新行了。
    例如
echo -e "abc\ndef\nghi\njkl" | sed -n 'N;/abc\ndef/d;p'
# 输出 ghi
#     jkl
# sed共执行了2次循环,第一次循环以下
#     N追加了一行,模式空间内容为"abc\ndef";删除模式空间;开始下一个循环,读入输入的第一行,模式空间内容为"ghi";
# 第二次循环以下
#     N追加了一行,模式空间内容为"ghi\njkl";删除操做未执行;打印模式空间。
   
echo -e "abc\ndef\nghi\njkl" | sed -n 'N;/abc\ndef/D;p;p'
# 输出 def
#     ghi
#     def
#     ghi
# sed共执行了2次循环,第一次循环以下
#     N追加了一行,模式空间内容为"abc\ndef";删除模式空间的第一行,模式空间内容为"def";开始下一个循环;
# 第二次循环以下
#     N追加了一行,模式空间内容为"def\nghi";删除操做未执行;打印模式空间,打印模式空间。  
h H
    复制/追加 模式空间到保持空间。
g G
    复制/追加 保持空间到模式空间。
    例如
echo -e "abc\ndef" | sed -n 'h;n;g;p'
# 输出 abc
    
echo -e "abc\ndef" | sed -n 'h;n;G;p'
# 输出 def
#     abc

echo -e "abc\ndef" | sed -n 'h;n;H;G;p'
# 输出 def
#     abc
#     def
l
    用视觉明确的格式列出当前行。
l width
    用视觉明确的格式列出当前行,在第width个字符处阻断(换行)。这是一个GNU扩展。
    例如
echo -e "abc\ndef" | sed -n 'N;l'
# 输出 abc\ndef$
echo -e "abc\ndef" | sed -n 'N;l 4'
# 输出 abc\
#     \nd\
#     ef$
n N
    读取/追加 输入的下一行到模式空间。
    例如,下面的例子体现了大小写n命令的区别
echo -e "abc\ndef" | sed -n 'n;p'
# 输出 def
    
echo -e "abc\ndef" | sed -n 'N;p'
# 输出 abc
#     def
p
    打印当前的模式空间。
P
    打印(的内容只)到当前模式空间的第一个换行符。只打印一行的意思。
    例如,下面的例子体现了大小写p命令的区别
echo -e "abc\ndef" | sed -n 'N;/abc\ndef/p'
# 输出 abc
#     def
   
echo -e "abc\ndef" | sed -n 'N;/abc\ndef/P'
# 输出 abc
s/regexp/replacement/
    用replacement替换匹配的内容
    尝试对模式空间匹配正则表达式。若是成功,用replacement替换掉匹配的部分。replacement可能包含特殊的字符&引用已匹配的那部分。特殊的转义\1到\9引用正则表达式中对应的子表达式。
    例如
echo "abc" | sed 's/abc/def/'
# 输出 def

echo "abc" | sed 's/abc/&def/'
# 输出 abcdef
    关于s命令的GNU扩展会在后文中描述,包括替换模式和其余选项
t label
    切换到分支label。
    自从上一个输入行被读取而且(执行了)t或者T命令,若是s///已经完成一个成功的替换,切换到分支label;若是省略了标签,则切换到脚本的结尾。
T label
    自从上一个输入行被读取而且(执行了)t或者T命令,若是s///连一个成功的替换都没有完成,切换到分支label;若是省略了标签,则切换到脚本的结尾。这是一个GNU扩展。
w filename
    写当前的模式空间到文件filename。
W filename
    写当前模式空间的第一行到文件filename。这是一个GNU扩展。
x      
    交换模式空间和保持空间的内容。
y/source/dest/
    将模式空间内source里的字符转换成dest里对应的字符。
    例如
echo "axxbxxcxx" | sed 'y/abc/123/'
# 输出 1xx2xx3xx

sed命令能够不给出地址,在这种状况下将对全部的输入行执行命令;
给出一个地址,这种状况下只对匹配的输入行执行命令;
或者给出2个地址,这种状况下将对匹配的范围内(第一个地址开始持续到第二个地址)的全部行执行命令。
关于地址范围的三个注意事项:
1 语法是 addr1,addr2 (地址用逗号分割);
2 已经匹配的addr1的行老是被接受的,即便地址2选择了一个较早的行(行号小于地址1);
3 若是addr2是一个正则表达式,它不会针对已经匹配的地址1的行进行测试。
如何理解第二条?就是说若是addr1匹配第5行,在第5行以后没有匹配addr2的行,则将匹配第5行到输入的结尾。
那么 6,4 这种格式的地址呢? 6,4 = 6
地址以后命令以前,一个 !(感叹号) 可能被插入,指明命令将被执行在不匹配的行上。
    例如
echo -e "abc\ndef" | sed -n '1!p'
# 输出 def
echo -e "abc\ndef" | sed -n '$!p'
# 输出 abc

支持以下的地址类型:
number     匹配指定的行(跨文件累计增长,除非命令行指定-s选项)。
first~step 匹配first开始的每个阶梯。
           好比 sed -n 1~2p 将打印输入流中的全部奇数行,地址 2~5 将匹配从第二行开始的每个第五行,
           第一个数能够是0,这种状况下,sed操做每个阶梯的倍数行。
$          匹配最后一行
/regexp/   匹配正则表达式regexp匹配的行。
\cregexpc  匹配正则表达式regexp匹配的行,c能够是任意的字符。
           好比有一行内容为abcdefg,则\abcdefga将匹配该行。

GNU sed 也支持一些特殊的2个地址的格式:
0,addr2    开始于第一个地址匹配的状态,直到匹配addr2的行被找到.这相似于 1,addr2,除了addr2匹配输入的第一行,
           0,addr2 格式认为第一行是范围的末尾,而 1,addr2 格式认为第一行是范围的开始。
           这种格式只工做在addr2是正则表达式的状况。
           若是第一行匹配addr2,0,addr2 匹配的范围是第一行,而 1,addr2 匹配的范围是整个输入。
addr1,+N   将匹配addr1和紧接着addr1的n行。
           6,+4 = 6,10
           6,+2 = 6,8
addr1,~N   将匹配addr1和接下来的行,直到行号是n的倍数。
           6,~5 = 6,10
           6,~4 = 6,8

s命令的GNU扩展
在替换文本中能够包含一个特殊序列,由反斜杠引导一个字母组成。说明以下
\L  转换替换文本到小写格式直到 \U 或者 \E 出现
\l  转换下一个字符到小写格式
\U  转换替换文到大写格式直到 \L 或者 \E 出现
\u  转换下一个字符到大写格式
\E  中止由 \L 或者 \U 开启的大小写转换

s命令后边能够跟以下标志
g   应用替换到全部匹配正则表达式的内容,不单单是第一个。
number  只替换第n个匹配。
p  执行完替换,打印新的模式空间。
w file-name
    执行完替换,写结果到命名的文件。
e  该命令容许从shell命令管道输入模式空间。
I
i  
    正则表达式匹配时忽略大小写。
M
m
    大意是说^在匹配行首时,是从第0个位置开始仍是从第一个字符开始?在有缩进的状况下。可是好像并无测验出什么?
相关文章
相关标签/搜索