Shell中的awk命令是很是强大的,有不少书籍专门介绍awk的。本文介绍的只是其中很小的一个点,使用awk命令完成两个文件的关联join。数组
先看看awk中的两个自身变量,NR和FNR。 awk能够指定同时读取多个文件,按照指定的前后顺序,逐个读取。ide
NR指的是awk所读取到全部记录(包括多个文件)的行数索引号,大概是Number Of Record的意思。spa
FNR只的是awk所读取到的每一个文件中的行数索引号,当文件发生切换时候,FNR从新从1开始,大概是File Number Of Record的意思。orm
有两个简单的文件:索引
[liuxiaowen@getway tmp]$ cat a.txt 1,a-12,a-23,a-34,a-4[liuxiaowen@getway tmp]$ cat b.txt 2,b-24,b-45,b-5
上面第一个命令中,awk只读取一个文件,所以NR和FNR是同样的;get
第二个命令有两个文件,从NR=5开始读取第二个文件b.txt。it
由这点能够得出一个规则:当NR==FNR时候,读取到的内容为第一个文件的内容,当NR!=FNR时候,读取到的内容是第二个文件的。class
看下面的命令:awk
[liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR{print $0,a[$1]}' b.txt a.txt 1,a-1 2,a-2 b-23,a-3 4,a-4 b-4
从输出的结果来看,已经将两个文件经过第一列的值join起来,准确的说是a.txt left outer join b.txt.stream
解释一下这个命令:
第一部分:
NR==FNR{a[$1]=$2;}
a是一个数组;当NR==FNR,也就是读取第一个文件的内容(第一个文件就是后面的b.txt),以b.txt中的$1做为数组索引号,以b.txt中的$2做为数组的值;
所以,第一部分事后,有了一个数组a,具体的值为 a[2]=”b-2″, a[4]=”b-4″, a[5]=”b-5″
再看第二部分:
NR!=FNR{print $0,a[$1]}
当NR!=FNR时候,也就是读取第二个文件的内容(a.txt),print $0(打印a.txt中的内容),以及a[$1],这里的含义是以a.txt中的$1为索引号,去数组a中获取值,由于以前数组a中的索引号有2,4,5;所以a.txt中第一列为2和4的记录从数组a中获取到了值,1,3,5在数组a中不存在。
若是是将两个文件作内关联:
[liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && a[$1] {print $0,a[$1]}' b.txt a.txt 2,a-2 b-24,a-4 b-4
变了一个条件:NR!=FNR && a[$1]
读取第二个文件的内容,而且第二个文件的$1在数组中存在,也能够写成 $1 in a
[liuxiaowen@getway tmp]$ awk -F',' 'NR==FNR{a[$1]=$2;}NR!=FNR && $1 in a {print $0,a[$1]}' b.txt a.txt 2,a-2 b-24,a-4 b-4