1、awk介绍
awk(名字来源于三个创始人姓氏首字母)是linux系统下文本编辑工具,是一门编程语言,有本身的基本语法和流程控制、函数。awk简单高效。
2、awk的运行方法
例子:使用冒号:分割/etc/passwd,打印出第一列
1.经过命令行执行
awk -F: '{print $1}' /etc/passwd
2.经过执行awk文件来执行
awk文件的格式:
#!/usr/bin/awk
BEGIN{ FS=":"}
{print $1}
而后调用这个awk文件的格式:awk -f awk脚本文件 /etc/passwd
3、awk的基本语法
awk经过FS做为每一段文本的分割符(默认空格),在命令行上能够用-F参数指定分隔符;
经过RS参数指定文本换行符(默认回车,因此是一行行取数据的),经过换行符做为分割来读取文件。这里区别于sed,sed是一行一行读取文件的
基本流程:
BEGIN{在读取文件以前作的操做}
{读取文件时作的操做}
END{所有文件读取以后才进行的操做}
经常使用内置变量:
$0 当前全部字段
$1--$n 按照分隔符分割取到的第n列内容
FS 分隔符(默认空格) awk 'BEGIN{FS=":"}{print $1}' /etc/passwd ;等价于awk -F: '{print $1}' /etc/passwd
RS 换行符(默认回车) awk 'BEGIN{RS=":"}{print $1}' /etc/passwd
NF 字符列数,当前处理行的分割后的列数 awk -F: '{print NF}' /etc/passwd
NR 行号 awk -F: '{print NR ":" $1}' /etc/passwd
OFS (默认空格)输出字段分隔符
ORS (默认回车)输出记录分隔符
自定义外部变量:
-v:自定义变量
awk -v host=$HOSTNAME "BEGIN{print host}"
关系操做符:<、>、<=、>=、==、!=、~、!~
比较符<等与其余的语言相似,重点说一下不同的
~:用来判断前面的列是否匹配后面的内容。例如awk -F: '$7 ~ /^\/bin/{print $0}' /etc/passwd(判断第7列是否以/bin开头,若是是打印该列)
!~:不匹配
输出:print与printf
print:直接输出 awk -F: '{print $1 ":" $2}' /etc/passwd
printf:格式化输出(printf是一个函数,须要用到())
awk -F: '{printf(hello %s:%s\n),$1,$2}'
注意:printf须要手动增长\n来换行。使用%s来格式化,printf()外加入要替换的变量
4、awk的流程控制
条件:
if语句 if(expression){action1}else{action2}
例如:产生10个数seq 10,经过if语句判断是单数仍是双数
seq 10 |awk '{if($0%2==0){print $0"是双数"}else{print $0"是单数"}}'
若是只须要一个if分支,能够省略前面的if,好比awk -F: '$3<-10 {print $1}' /etc/passwd
循环:
while语句:while(expression){action}
例子:使用:分割/etc/passwd,并将每一列前加上列号
awk -F: '{i=1;while(i<=NF){print i":"$i;i++ }}' /etc/passwd
for语句:
第一种方法:for(i=0;i<=10;i++){action}
例子:使用:分割/etc/passwd,并将每一列前加上列号
awk -F: '{for(i=1;i<=NF;i++){print i":"$i}}' /etc/passwd
第二种方法:for(value in array){action}
当value在array的key中,进行下面的操做。awk的数组相似python中的字典。
例子:统计/etc/passwd第7列的值及对应的个数
awk -F: '{a[$7]++}END{for(i in a)if(i!=""){print i":"a[i]}}' /etc/passwd
说明:a[$7]:将$7做为数组a的key,而后统计对应的个数;而后遍历for(i in a),判断i是否在数组a的key中;若是存在则打印a[i],a[i]为对应key的值,这里指个数。
数组:
array[1]="hello"
array["name"]="Jack"
数组相似python的字典,array[key值]="value值";key为索引,能够是数字也能够是字符串。
数组元素的删除:delete array["key"]
例子:定义了数组a的三个值,并打印结果查看
awk 'BEGIN{a[1]="hello";a[2]="word";a["name"]="meitian";for(i in a){print "key为"i":value为"a[i]}}'
5、awk函数
内置函数
1.算术函数:
int(x) 返回x的整数部分的值,值不会四舍五入,只是取整
sqrt(x) 返回x的平方根
rand() 返回伪随机数r,其中0<=r<1,(伪随机数指返回的值都是上一次返回的同一个随机数)
srand(x) 创建rand()新的种子数,若是没有指定就用当天的时间(使用srand()可使得rand()返回不一样的随机数)
例子:rand()产生一个随机数,经过srand()产生新的种子数,而后再差生一个随机数
awk 'BEGIN{print rand();srand();print rand()}'
2.字符串函数:
sub("要替换的字符串","替换后的字符串值"):替换匹配到的第一个文本
echo "hello world world" | awk '{sub("world","meitian");print $0}'
gsub("要替换的字符串","替换后的字符串值" ):开启全局替换,替换文本中全部匹配到的字符串
echo "hello world world" | awk '{gsub("world","meitian");print $0}'
index("a","b"):返回字符串b在字符串a中开始的位置
awk 'BEGIN{print index("hello world","world")}'
length("s"):返回字符串s的长度,当没有指定s时,返回$0的长度
awk -F 'BEGIN{print length("hello world")}{print lenght()}' /etc/passwd
match("s","r"):若是正则表达式r在s中匹配到,则返回出现的起始位置,不然返回0
awk 'BEGIN{print match("hello world","[wo]")}'
split(s,a,sep) 使用sep将字符串s分解到数组a中,默认sep为FS。
例子:使用o作为分隔符,将"hello world"进行分割存储到数组a中
awk 'BEGIN{print split("hello world",a,"o");for(i in a){print a[i]}}'
toupper(s):将全部小写字母转换成大写字母
echo "hello world" |awk '{print toupper($0)}'
tolower(s):将全部大写字母转换成小写字母
echo "HELLO WORLD" |awk '{print tolower($0)}'
自定义函数:
function 函数名(参数1,参数2,...){语句;return 表达式}
例子:求和
awk 'function sum(a,b){total=a+b;return total}BEGIN{print sum(2,3)}'
注意:函数必须写在BEGIN{}{}END{}的花括号以外的地方,不能放在任何{}内,不然会报错`return' used outside function context
6、实战
1.得到eth0的IP地址
ifconfig eth0 | awk -F":| +" '/inet addr:/{print $4}'
ifconfig eth0的结果:
说明:
1.多个字符做为分隔符(好比例子中的冒号和空格),可使用|来区分;或者直接使用正则来做区分。好比例子中的-F":| +"能够写成-F"[ :]+"
2.若是要过滤多个相同分隔符,可使用正则的+。表示1个或多个
3.awk中可使用'/操做匹配到该内容的行/{匹配到前面的行后进行的操做}'来选择某些想要的行。好比例子中须要取匹配到“inet addr:”的行,打印第4列,//中的为正则表达式,若是有/等须要使用\进行转义
2.统计tcp网络链接数
netstat -an |awk '/^tcp/{a[$NF]++}END{for(i in a){printf("%s:%d\n",i,a[i])}}'
说明:与上面的例子大同小异,/^tcp/表示只处理以tcp开头的行。$NF表示最后一列
7、在实战中可能用到的注意点
1.awk须要对文件进行处理。不须要处理文件的能够把打印命令写在BEGIN里(例如:awk -v name=meitian 'BEGIN{print name}')
2.能够对ls等命令结果进行处理
例子:对包含conf的文件按照.进行分割,并将分割结果用冒号进行链接
ls |grep conf |awk -F. '{print $1 ":" $2}'
3.awk使用-v定义变量,可是awk中引用变量时直接使用变量名,不须要在变量前加$
4.将awk中的结果赋值给变量传递给shell中用
方法一:可使用eval()函数来将打印的结果转换成变量。eval会将打印的值当作命令来进行处理,shell中定义变量的格式:变量名=变量值
例子:有个文件名为search.contract-0.0.5-SNAPSHOT.jar,按照-分割。将-前面的存为name变量,中间的版本号存为version变量。
eval $(ls |grep search.contract-0.0.5-SNAPSHOT.jar |awk -F"-" '{printf("name=%s;version=%s\n",$1,$2)}')
方法二:若是只想保存一个变量,能够经过变量名=$(操做print变量值)的方法来保存
例如提取ifconfig eth0本机中的IP地址保存到变量a中
a=$(ifconfig eth0 |awk -F":| *" '/inet addr/{print $4}')
5.只对包含某些内容的行进行操做
awk '/要匹配的内容/{进行的操做}' file,//内能够放入正则表达式,注意对一些特殊字符进行转义,好比“[]\“
6.awk不能直接修改源文件,能够经过重导向输出结果来修改原文件。>(所有覆盖文件内容)或>>(追加到文件)
awk '/^root/{print $0 >"passwd"}' passwd
注意:重导向输出的文件名要用双引号括起来,不然会报错
7.awk使用双引号做为分隔符,可使用单引号括起来,'"'