去除重复列(awk之数组妙用)

 说明蓝色=命令名称数组

      浅绿=命令参数ide

      浅蓝=选项函数

      紫色=目录测试

      系统环境:CentOS  6.2  i686spa

有文件,包含的内容以下:3d

 

去除重复列结果以下blog

 

方法:awk '{for(i=1;i<=NF;i++)a[$i,NR]++}{for(j in a){split(j,b,SUBSEP);if(b[2]==NR)printf b[1]" "} printf "\n"}' file字符串

 

说明:本方法巧妙的利用了awk的数组,a[$i,NR]将读入的数据以域和行号为下标,只要本行的列中有重复数据则以该数据和该行行号为下标的数组元素加1。后面经过for循环取出下标,用split(j,b,SUBSEP)将两个下标分离赋值给新的数组b,此时b[1]中的数据就是咱们想要的(不重复的列),最后判断b[2]与行号相等的则打印b[1]执行命令后结果以下:get

若是只想打印重复列,只需a数组的之是否大于1:awk '{for(i=1;i<=NF;i++)a[$i,NR]++}{for(j in a){split(j,b,SUBSEP);if(b[2]==NR&&a[b[1],NR]>1)printf b[1]" "} printf "\n"}' fileit

执行结果以下:

补充:

awk的二维数组使用

awk的多维数组在本质上是一维数组,更确切一点,awk在存储上并不支持多维数组。awk提供了逻辑上模拟二维数组的访问方式。例如,array[2,4] = 1这样的访问是容许的。awk使用一个特殊的字符串SUBSEP (\034)做为分割字段,在上面的例子中,关联数组array存储的键值其实是2\0344。

相似一维数组的成员测试,多维数组能够使用 if ( (i,j) in array)这样的语法,可是下标必须放置在圆括号中。
相似一维数组的循环访问,多维数组使用 for ( item in array )这样的语法遍历数组。与一维数组不一样的是,多维数组必须使用split()函数来访问单独的下标份量。split ( item, subscr, SUBSEP)。  

相关文章
相关标签/搜索