AWK 从不会到入门 Skr Skr

时间 2019-11-09

标签 awk 从不入门 skr 栏目 Linux 繁體版

原文原文链接

awk 含义: Aho, Weinberger & Kernighan interpreted language，是由这两我的共同发明的。html

这不是一个工具，「这是一个伟大、有着奇怪的名字的语言」。bash

发音：awk [ɔk]函数

基本用法

awk '{ print }' /etc/passwd # 至关于 "cat /etc/passwd"
awk '{ print $0 }' /etc/passwd # 与前面一行语句等价

花括号里的 print 函数用于将匹配到的每一行逐行打印出来
print 和 print $0 等价

Multiple Fields

awk -F":" '{ print "username: " $1 "\t\tuid:" $3 }' /etc/passwd # 打印第一列和第三列的字符串，并以制表符分隔
awk -F":" '                    \
BEGIN{                         \
    print "username\tuid"     \
}; {                         \
    print $1 "\t" $3         \
}' /etc/passwd # 同上，可是将 username 和 uid 放置表头打印，看起来更美观

-F 参数表示以 ":" 做为分隔符
BEGIN 表示会在匹配第一行以前执行，所以很适合用做打印表头

Block(pattern-action，man-page 的说法)

如你所见，AWK 单引号内的脚本被称做「AWK Script」，脚本内由一个或多个花括号对组成，每个花括号被叫作 Block。像「基本用法」里的单个 Block 是最简单的 Block。AWK 是按行处理文本的，每拿到一行字符串，都会将 AWK Script 内的 Block 按序匹配，匹配成功时则执行 Block 内的代码。工具

awk '                         \
BEGIN {                     \
    FS = ":";                 \
    count = 0;                \
    print "username\tuid";     \
}                             \
{                            \
    count += 1;                \
    print $1 "\t" $3        \
}                             \
END {                        \
    print "Totals:" count     \
}' /etc/passwd

awk -f block.awk /etc/passwd # 若是你嫌在命令行里输入麻烦，还能够将脚本以文件的方式执行

以上代码共有三个 Block，awk 每拿到一行字符串都会从前到后匹配这三个 Block，如若匹配上，则执行里面的代码。BEGIN 里定义了分隔符 FS（Field Seperator），这和以前的「Multiple Fields」里的 -F 选项是彻底等价的效果。此外还定义了一个记录行数的变量 count，第二个 Block 没有定义任何条件，所以从第一行到最后一行都会被匹配成功！END 行最后输出行数。性能

awk 会在待匹配的文本第一行以前和最后一行以后各插入一行空行，BEGIN 和 END Block 则只有当分别匹配到这两行空行的时候才会执行。BEGIN 和 END 就好像语法糖同样，只是执行的时间一个最靠前，一个最靠后，其它与正常的 Block 并没有任何区别ui

正由于 BEGIN 这样的特性，所以你能够将变量定义、打印表头等初始化工做放在这里；END 适合用来作一些总结性的操做，打印行数、总字符数、行平均长度等等。命令行

带条件的 Block

awk '                     \
BEGIN { x=0 }             \
/^$/  { x=x+1 }         \
END   { print "I found " x " blank lines. :)" }'  file

以上代码用于打印文件中全部的空行，若是你是 JSer 或者 Perl-er，可能会对 /^$/ 比较熟悉，借鉴关系链：JavaScript <- Perl <- awk。awk 能够说是这套正则表示的鼻祖。code

其实在每个 Block 以前都存在一个隐含条件，无条件的 Block 会匹配全部文件中存在的行（不包括 awk 插入的两行空行）。当 Block 被附加条件后，只有当条件为真时才会执行。htm

awk '( $1 == /[0-9]+\.[0-9]*/ ) && NR%3 { print }' file

以上仅仅打印以浮点数开头且行数不为 3 的倍数的行，因为 AWK Script 是弱类型的，所以像 0 会被判为 false。在 awk 里，Record 就是行，所以 NR 表示 Number of Record。ip

在 AWK Script 中，全部变量的类型都是 string，当对 string 进行算术运算（好比加减乘除）时，awk 会将string 解析为 number，若是不是合法的 number，则视为 0；而后再进行算术运算。

为了更好的表现 BEGIN 的含义，欣赏下面的代码：

awk ' !/^$/ && NR <= 100 {          \
    if (NR == 1) {                  \
        FS = ":";                     \
    }                               \
    # 过滤掉注释和 NF 小于 3 的行      \
    if (!($1 ~ /^#/) || NF >= 3) {  \
           print $1 ":" $3;              \
    }                               \
}' /etc/passwd

整个代码只有一个 Block，这个 Block 只有在非空的行以及行数小于 100 里才能执行，当 awk 拿到第一行（NR == 1）时，定义了分隔符 FS（Field Seperate），这本来是在 BEGIN Block 中完成的（由于这个例子中的第一个 if 每次都会被执行，浪费性能）。第二个 if 过滤掉注释语句且 NF（Number of Field）大于 3 才执行，在 awk 中，NF 表示每一行被 FS 分隔后获得的 Field 的数量，至关于 NF = line.split(FS)。这个例子说明了 BEGIN 和 END 仅仅是语法糖，在本质上和普通的 Block 没有任何区别。像 NF 和 FS 这一类的是 awk 的自带变量，变量能够出如今 Block 的匹配条件里，同时也能够修改自带变量的值来改变 awk 的行为。

函数

awk 靠 AWK Script 脚本工做，为了方便，awk 提供了一些内置函数，以及容许你定义函数的功能。下面是一个找出 /etc/passwd 文件中第三列最大的数所对应的行。

function find_max(n1, n2)
{
    if (n1 > n2) {
        return n1;
    }
    return n2;
}

BEGIN {
    FS = ":";
    max = -1;
}
{
    if (NF < 3) {
        next
    }
    # 第一行
    max = $3;
    mR = NR;
    while (getline == 1) {
        _max = find_max(max,$3);
        if (max < _max) {
            max = _max;
            mR = NR;
        }
    }
}
END {
    print "max is:" max;
    print "NR is:" mR;
}

而后执行 awk -f ./max.awk /etc/passwd。

find_max 是自定义函数，调用的时候要带上圆括号，像 getline 和 next 则是内建函数，内建函数的调用不须要带圆括号。其中 next 用来跳过本次执行，主要用于处理文件开头的一些注释；getline 用来获取下一行，getline 会把下一行赋值给 $x（x 表明数字）。若是没有下一行就返回 0，while 循环结束。getline 改变了 awk 的行为，awk 从开始到结束只执行了一次 Block。

还有一些数学函数（如 sin、cos、sqrt）以及字符串处理函数（length、sprintf 格式化字符串）属于内建函数。

总结

awk 可玩性极强，借助 AWK Script，你能够用它模拟其它常见的文本处理工具（谁又会这么作呢？）

AWK 从不会到入门 Skr Skr

基本用法

Multiple Fields

Block(pattern-action，man-page 的说法)

带条件的 Block

函数

总结

参考连接