linux之Awk用法

时间 2020-01-01

标签 linux awk 用法栏目 Linux 繁體版

原文原文链接

参考地址：http://linux.chinaunix.net/techdoc/develop/2007/02/10/950229.shtml
html

http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html
linux

http://www.cnblogs.com/repository/archive/2011/05/13/2045927.html
shell

相较于 sed 经常做用于一整个行的处理， awk 则比较倾向于一行当中分红数个『字段』来处理。所以，awk 至关的适合处理小型的数据数据处理呢！awk 一般运做的模式是这样的：
[root@linux ~]# awk '条件类型1{动做1} 条件类型2{动做2} ...' filename awk 能够处理后续接的档案，也能够读取来自前个指令的 standard output 。但如前面说的， awk 主要是处理『每一行的字段内的数据』，而预设的『字段的分隔符为 "空格键" 或 "[tab]键" 』！举例来讲，咱们用 last 能够将登入者的数据取出来，结果以下所示：
[root@linux ~]#lastdmtsai pts/0 192.168.1.12 Mon Aug 22 09:40 still logged in
root tty1 Mon Aug 15 11:38 - 11:39 (00:01)
reboot system boot 2.6.11 Sun Aug 14 18:18 (7+15:41)
dmtsai pts/0 192.168.1.12 Fri Aug 12 12:07 - 12:08 (00:01)
若我想要取出帐号与登入者的 IP ，且帐号与 IP 之间以 [tab] 隔开，则会变成这样：
[root@linux ~]# last | awk '{print $1 "\t" $3}'
dmtsai 192.168.1.12
root Mon
reboot boot
dmtsai 192.168.1.12
由于不论哪一行我都要处理，所以，就不须要有 "条件类型" 的限制！我所想要的是第一栏以及第三栏，可是，第二行及第三行的内容怪怪的～这是由于数据格式的问题啊！因此啰～使用 awk 的时候，请先确认一下您的数据当中，若是是连续性的数据，请不要有空格或 [tab] 在内，不然，就会像这个例子这样，会发生误判喔！
另外，由上面这个例子您也会知道，在每一行的每一个字段都是有变量名称的，那就是 $1, $2... 等变量名称，以上面的例子来讲， dmtsai 是 $1 ，由于他是第一栏嘛！至于 192.168.1.12 是第三栏，因此他就是 $3 啦！后面以此类推～呵呵！还有个变数喔！那就是 $0 ，$0 表明『一整列资料』的意思～以上面的例子来讲，第一行的 $0 表明的就是『dmtsai pts/0.... 』那一行啊！由此可知，刚刚上面四行当中，整个 awk 的处理流程是：
bash

读入第一行，并将第一行的资料填入 $0, $1, $2.... 等变数当中；
ide
依据 "条件类型" 的限制，判断是否须要进行后面的 "动做"；
ui
作完全部的动做与条件类型；
spa
若还有后续的『行』的数据，则重复上面 1~3 的步骤，直到全部的数据都读完为止。通过这样的步骤，您会晓得， awk 是『以行为一次处理的单位』，而『以字段为最小的处理单位』。好了，那么 awk 怎么知道我到底这个数据有几行？有几栏呢？这就须要 awk 的内建变量的帮忙啦～
变量名称
表明意义
NF
每一行 ($0) 拥有的字段总数
NR
目前 awk 所处理的是『第几行』数据
FS
目前的分隔字符，预设是空格键
咱们继续以上面例子来作说明，若是我想要列出每一行的帐号，而且列出目前处理的行数，而且说明，该行有多少字段，则能够这样 (注意， awk 后续的全部动做以 ' 括住，因此，内容若是想要以 print 打印时，记得，非变量的文字部分，包含上一小节
printf
提到的格式中，都须要使用双引号来定义出来喔！)
[root@linux ~]# last | awk '{print $1 "\t lines: " NR "\t columes: " NF}'
dmtsai lines: 1 columes: 10
root lines: 2 columes: 9
reboot lines: 3 columes: 9
dmtsai lines: 4 columes: 10
这样能够了解 NR 与 NF 的差异了吧？好了，底下来谈一谈所谓的 "条件类型" 了吧！

awk 的逻辑运算字符

既然有须要用到 "条件" 的类别，天然就须要一些逻辑运算啰～例如底下这些：
运算单元
表明意义
>
大于
小于
>=
大于或等于
小于或等于
==
等于
!=
不等于
值得注意的是那个 == 的符号，由于在『逻辑运算』上面，就是所谓的大于、小于、等于等等的判断式上面，咱们习惯上是以 == 来表示，而若是是直接给予一个值，例如变量设定时，就直接使用 = 而已。好了，咱们实际来运用一下逻辑判断吧！举例来讲，在 /etc/passwd 当中是以冒号 ":" 来做为字段的分隔，那假设我要查阅，第三栏小于 10 如下的数据，而且仅列出帐号与第三栏，那么能够这样作：
[root@linux ~]# cat /etc/passwd | \
> awk '{FS=":"} $3
root:x:0:0:root:/root:/bin/bash
bin 1
daemon 2
......(如下省略)......
有趣吧！不过，怎么第一行没有正确的显示出来呢？这是由于咱们读入第一行的时候，那些变数 $1, $2... 预设仍是以空格键为分隔的，因此虽然咱们定义了 FS=":" 了，可是却仅能在第二行后才开始生效。那么怎么办呢？咱们能够预先设定 awk 的变量啊！利用 BEGIN 这个关键词喔！这样作：
[root@linux ~]# cat /etc/passwd | \
> awk 'BEGIN {FS=":"} $3 ......(如下省略)......
颇有趣吧！而除了 BEGIN 以外，咱们还有 END 呢！另外，若是要用 awk 来进行『计算功能』呢？以底下的例子来看，假设我有一个薪资数据表，内容是这样的：
Name 1st 2nd 3th
VBird 23000 24000 25000
DMTsai 21000 20000 23000
Bird2 43000 42000 41000
如何帮我计算每一个人的总额呢？并且我还想要格式化输出喔！你能够将上面的数据储存成一个名称为 pay.txt 的档案，则：
[root@linux ~]# cat pay.txt | \
> awk 'NR==1{printf "%10s %10s %10s %10s %10s\n",$1,$2,$3,$4,"Total" }
NR>=2{total = $2 + $3 + $4
printf "%10s %10d %10d %10d %10.2f\n", $1, $2, $3, $4, total}'
Name 1st 2nd 3th Total
VBird 23000 24000 25000 72000.00
DMTsai 21000 20000 23000 64000.00
Bird2 43000 42000 41000 126000.00
上面的例子有几个重要事项应该要先说明的：
.net
- 全部的动做，亦即在 {} 内的动做，若是有须要多个指令辅助时，可利用分号『;』间隔，或者直接以 [Enter] 按键来隔开每一个指令，例如上面的 NR>=2 后面接的动做，利用 total = ... 那个指令来指定加总，然后续则以 printf 来格式化输出！
  unix
- 逻辑运算当中，若是是『等于』的状况，则务必使用两个等号『==』！
  htm
- 格式化输出时，在 printf 的格式设定当中，务必加上 \n ，才能进行分行！
- 与 bash shell 的变量不一样，在 awk 当中，变量能够直接使用，不需加上 $ 符号。
利用 awk 这个玩意儿，就能够帮咱们处理不少平常工做了呢！真是好用的很～此外， awk 的输出格式当中，经常会以
printf 来辅助，因此，最好您对 printf 也稍微熟悉一下比较好啦！另外， awk 的动做内 {} 也是支持 if (条件) 的喔！举例来讲，上面的指令能够修订成为这样的[root@linux ~]# cat pay.txt | \> awk '{if(NR==1) printf "%10s %10s %10s %10s %10s\n",$1,$2,$3,$4,"Total"}NR>=2{total = $2 + $3 + $4printf "%10s %10d %10d %10d %10.2f\n", $1, $2, $3, $4, total}'你能够仔细的比对一下上面两个输入有啥不一样～从中去了解两种语法吧！我我的是比较倾向于使用第一种语法，由于会比较有统一性啊！ ^_^