01. 什么是正则表达式java
正则表达式regular expression
, RE是一种字符模式,用于在查找过程当中匹配指定的字符。
02. 为何要使用正则表达式?python
在工做中,咱们时刻面对着大量的日志,程序,以及命令的输出。迫切的须要过滤咱们须要的一部份内容,甚至是一个字符串。好比: 如今有一个上千行的文件,咱们仅须要其中包含"root"的行,怎么办? 此时就须要使用到正则表达式的规则来筛选想要的内容。
03. 正则表达式注意事项
1.正则表达式应用很是普遍,存在于各类语言中,例如:php,python,java等。2.正则表达式和通配符特殊字符是有本质区别的3.要想学好grep、sed、awk首先就要掌握正则表达式。4.注意正则神坑,中文符号。linux
正则表达式 描述 \ 转义符,将特殊字符进行转义,忽略其特殊意义 ^ 匹配行首,^是匹配字符串的开始 $ 匹配行尾,$是匹配字符串的结尾 ^ $表示空行. (点) 匹配换行符以外的任意单个字符 [ ] 匹配包含在[字符]之中的任意一个字符 [^] 匹配[^]以外的任意一个字符 [a-z] 匹配[]中指定范围内的任意一个字符 ? 匹配其前面的字符1次或者0次+匹配其前面的字符1次或者屡次 匹配其前面的字符0次或者屡次**.** * 表示全部( )匹配表达式,建立一个用于匹配的字符串 {n} 匹配以前的项n次,n是能够为0的正整数{n,}以前的项至少须要匹配n次 {n,m} 指定以前的项至少匹配n次,最多匹配m次,n<=m | 或者 特定字符含义 [[:upper:]] 全部大写字母 [[:lower:]] 全部小写字母 [[:alpha:]] 全部字母 [[:digit:]] 全部数字 [[:alnum:]] 全部的字母和数字 [[:space:]] 空白字符,空白。 [[:punct:]] 全部标点符号
环境准备nginx
环境准备 [root@gjy ~]# cat test.txt I am qiuzengjia teacher! I teach linux. test I like badminton ball ,billiard ball and chinese chess! my blog is http://www.oldboyedu.blog.com our site is http://www.increase93.com my qq num is 1176495252. not 117666649555252.
正则git
#过滤以m开头的行 [root@gjy ~]# grep "^m" test.txt #过滤以m为结尾的行 [root@gjy ~]# grep "m$" test.txt #排除空行, 并打印行号 [root@gjy ~]# grep -vn "^$" test.txt #匹配任意一个字符,不包括空行 [root@gjy ~]# grep "." test.txt #匹配全部内容 [root@gjy ~]# grep ".*" test.txt #过滤出以.为结尾的行 [root@gjy ~]# grep "\.$" test.txt #过滤出以m和n为开头的行 [root@gjy ~]# grep "^[mn]" test.txt #过滤出文件中不是以m或n或o开始的行 [root@gjy ~]# egrep "^[^mno]" test.txt [root@gjy ~]# egrep -v "^[mno]" test.txt #过滤出空行,并显示行号 [root@gjy ~]# grep -n "^$" test.txt #把文件中每一个字母总共出现多少次统计出 [root@gjy ~]# grep -o "[a-Z]" test.txt |sort |uniq -c|sort -rh #把文件中每一个单词总共出现多少次统计出 [root@gjy ~]# egrep -o "[a-Z]+" test.txt |sort |uniq -c|sort -rh #找出/etc/passwd文件中的两位数或三位数的行; [root@gjy ~]# grep -Ew "[0-9]{2,3}" /etc/passwd #找出/proc/meminfo文件中,全部大写或小写s开头的行;至少有三种实现方式; [root@gjy ~]# grep "^[sS]" /proc/meminfo [root@gjy ~]# grep -i "^s" /proc/meminfo [root@gjy ~]# grep -E "^(s|S)" /proc/meminfo #显示当前系统上root、CentOS或user1用户的相关信息; [root@gjy ~]# grep -E "^(root|CentOS|user1)" /etc/passwd #找出/etc/init.d/functions文件中某单词后跟一个小括号的行; [root@gjy ~]# grep -E -o "^[_[:alnum:]]+\(\)" /etc/init.d/functions #环境准备 [root@gjy ~]# cat id.txt 邹 371481199403259478 莫 52020319810613433X 韩 46010619911113727A 荣 53012419750413543 荣 530124197504135438 阮 360702197902169951 任 6212231987082X5176 姜 370602198507189574 赵 BBB602198507189574 #找出正确的身份证号码 [root@gjy ~]# egrep "[0-9]{17}[0-9X]" id.txt
Sed是一个流编辑器, 非交互式的编辑器,它一次处理一行内容. 处理时,把当前处理的行存储在临时缓冲区中,称为"模式空间"(pattern space) 接着用Sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。 文件内容并无改变,除非你使用重定向存储输出。 Sed是用来自动编辑一个或多个文件;简化对文件的反复操做;编写转换程序等。
01. Sed命令格式web
sed [options] 'command' file(s) Sed正则使用与Grep同样,Sed在文件中查找模式时也可使用正则表达式(RE)和各类元字符。 正则表达式是括在斜杠间的模式,用于查找和替换,如下是sed支持的元字符。 使用基本元字符集 ^, $, ., *, [], [^], < >, (), {} 使用扩展元字符集 ?, +, { }, |, ( ) 使用扩展元字符的方式 + sed -r
02. Sed命令示例正则表达式
Sed对指定行进行操做,包括打印、删除、修改、追加等。 Sed选项参数-e #容许多项编辑-n #取消默认的输出-i #直接修改对应文件-r #支持扩展元字符Sed命令参数a #在当前行后添加一行或多行c #在当前行进行替换修改d #在当前行进行删除操做i #在当前行以前插入文本p #打印匹配的行或指定行n #读入下一输入行,从下一条命令进行处理! #对所选行之外的全部行应用命令h #把模式空间里的内容重定向到暂存缓冲区H #把模式空间里的内容追加到暂存缓冲区g #取出暂存缓冲区的内容,将其复制到模式空间,覆盖该处原有内容G #取出暂存缓冲区的内容,将其复制到模式空间,追加在原有内容后面
多重编辑选项 eshell
#先删除行,而后管道给后面的sed进行替换 [root@gjy ~]# sed '1,9d' passwd |sed 's#root#gjy#g' #使用-e进行屡次编辑修改操做 [root@gjy ~]# sed -e '1,9d' -e 's#root#gjy#g' passwd
打印命令pexpress
g#打印匹配halt的行 [root@gjy ~]# sed -n '/halt/p' passwd halt:x:7:0:halt:/sbin:/sbin/halt #打印第二行的内容 [root@gjy ~]# sed -n '2p' passwd bin:x:1:1:bin:/bin:/sbin/nologin #打印最后一行 [root@gjy ~]# sed -n '$p' passwd **追加命令a** #给30行添加配置 \t tab键(须要转义) \n 换行符 [root@gjy ~]# sed -i '30a listen 80;' passwd
追加命令a
给30行添加配置 \t tab键(须要转义) \n 换行符 [root@gjy ~]# sed -i '30a listen 80;' passwd
修改命令c
#指定某行进行内容替换 [root@gjy ~]# sed -i '7c SELINUX=Disabled' /etc/selinux/config #正则匹配对应内容, 而后进行替换 sed -i '/^SELINUX=/cSELINUX=Disabled' /etc/selinux/config #非交互式修改指定的配置文件 [root@gjy ~]# sed -i '/UseDNS/cUseDNS no' /etc/ssh/sshd_config [root@gjy ~]# sed -i '/GSSAPIAuthentication/c#GSSAPIAuthentication no' /etc/ssh/sshd_config
删除命令d
#指定删除第三行, 但不会改变文件内容 [root@gjy ~]# sed '3d' passwd [root@gjy ~]# sed '3{d}' passwd #从第三行删除到最后一行 [root@gjy ~]# sed '3,$d' passwd #删除最后一行 [root@gjy ~]# sed '$d' passwd #删除全部的行 [root@gjy ~]# sed '1,$d' passwd #匹配字符串进行该行删除 [root@gjy ~]# sed '/mail/d' passwd
插入命令i
#在文件的某一行上面添加内容 [root@gjy ~]# sed -i '30i listen 80;' passwd
写文件命令w
#将匹配到的行写入到新文件中 [root@gjy ~]# sed -n '/root/w newfile' passwd #将passwd文件的第二行写入到newfile中 [root@gjy ~]# sed -n '2w newfile' passwd
获取下一行命令n
#匹配root的行, 删除root行的下一列 [root@gjy ~]# sed '/root/{n;d}' passwd #替换匹配root行的下一列 [root@gjy ~]# sed '/root/{n; s/bin/test/}' passwd
暂存和取用命令h H g G
#将第一行的写入到暂存区, 替换最后一行的内容 [root@gjy ~]# sed '1h;$g' /etc/hosts #将第一行的写入到暂存区, 在最后一行调用暂存区的内容 [root@gjy ~]# sed '1h;$G' /etc/hosts #将第一行的内容删除但保留至暂存区, 在最后一行调用暂存区内容追加至于尾部 [root@gjy ~]# sed '1{h;d};$G' /etc/hosts #将第一行的内容写入至暂存区, 从第二行开始进行重定向替换 [root@gjy ~]# sed '1h;2,$g' /etc/hosts #将第一行重定向至暂存区, 2-3行追加至暂存区, 最后追加调用暂存区的内容 [root@gjy ~]# sed '1h; 2,3H; $G' /etc/hosts [root@gjy ~]# sed '1,3H; $G' /etc/hosts
反向选择命令!
#除了第三行,其余所有删除 [root@gjy ~]# sed '3!d' /etc/hosts
03. Sed匹配替换
s #替换命令标志
g #行内全局替换
i #忽略替换大小写
替换命令s
#替换每行出现的第一个root [root@gjy ~]# sed 's/root/alice/' passwd #替换以root开头的行 [root@gjy ~]# sed 's/^root/alice/' passwd #查找匹配到的行, 在匹配的行后面添加内容 [root@gjy ~]# sed 's/[0-9][0-9]$/& new/' passwd #匹配包含有root的行进行替换 [root@gjy ~]# sed 's/root/alice/g' passwd #匹配包含有root的行进行替换,忽略大小写 [root@gjy ~]# sed 's/root/alice/gi' /etc/passwd #后向引用 [root@gjy ~]# sed -r 's#(roo)#\1-alice#g' passwd [root@gjy ~]# ifconfig eth0|sed -n '2p'|sed -r 's#(^.*et) (.*) (net.*$)#\2#g' #示例 [root@web ~]# vim a.txt /etc/abc/456 etc #删除文本中的内容,需加转义 [root@gjy ~]# sed '/\/etc\/abc\/456/d' a.txt #若是碰到/符号, 建议使用#符替换 [root@gjy ~]# sed 's#/etc/abc/456#/dev/null#g' a.txt [root@gjy ~]# sed 's@/etc/abc/456@/dev/null@' a.txt
删除文件
#删除配置文件中#号开头的注释行, 若是碰到tab或空格是没法删除 [root@gjy ~]# sed '/^#/d' file #删除配置文件中含有tab键的注释行 [root@gjy ~]# sed -r '/^[ \t]*#/d' file #删除无内容空行 [root@gjy ~]# sed -r '/^[ \t]*$/d' file #删除注释行及空行 [root@gjy ~]# sed -r '/^[ \t]*#/d; /^[ \t]*$/d' /etc/vsftpd/vsftpd.conf [root@gjy ~]# sed -r '/^[ \t]*#|^[ \t]*$/d' /etc/vsftpd/vsftpd.conf [root@gjy ~]# sed -r '/^[ \t]*($|#)/d' /etc/vsftpd/vsftpd.conf
给文件行添加注释
#将第二行到第六行加上注释信息 [root@gjy ~]# sed '2,6s/^/#/' passwd #将第二行到第六行最前面添加#注释符 [root@gjy ~]# sed -r '2,6s/.*/#&/' passwd #添加#注释符 [root@gjy ~]# sed -r '3,$ s/^#*/#/' passwd [root@gjy ~]# sed -r '3,$ s/^/#/' passwd [root@gjy ~]# sed -r '30,50s/^[ \t]*#*/#/' /etc/nginx.conf [root@gjy ~]# sed -r '2,8s/^[ \t#]*/#/' /etc/nginx.conf
01. Awk基本介绍
什么是Awk?
awk是一种编程语言,用于在linux/unix
下对文本和数据进行处理。
awk数据能够来自标准输入、一个或多个文件,或其它命令的输出。
awk一般是配合脚本进行使用, 是一个强大的文本处理工具。
awk 的处理文本和数据的方式以下:
1.进行逐行扫描文件, 从第一行到最后一行
2.寻找匹配的特定模式的行,在行上进行操做
3.若是没有指定处理动做,则把匹配的行显示到标准输出
4.若是没有指定模式,则全部被操做的行都被处理
Awk语法格式。
awk 的语法格式awk [options] 'commands' filenames
#命令 command行处理前 行处理 行处理后 BEGIN{} {} END{} #BEGIN发生在读文件以前 [root@gjy ~]# awk 'BEGIN{print 1/2}' 0.5 #BEGIN在行处理前, 修改字段分隔符 [root@gjy ~]# awk 'BEGIN{FS=":"} {print $1}' /etc/passwd #BEGIN在行处理前, 修改字段读入和输出分隔符 [root@gjy ~]# awk 'BEGIN{FS=":";OFS="---"} {print $1,$2}' /etc/passwd #示例 [root@gjy ~]# awk 'BEGIN{print 1/2} {print "ok"} END {print "Game Over"}' /etc/hosts 0.5 ok ok ok Game Over
Awk工做原理
awk -F: '{print $1,$3}' /etc/passwd 1.awk将文件中的每一行做为输入, 并将每一行赋给内部变量 $0 , 以换行符结束 2.awk开始进行字段分解,每一个字段存储在已编号的变量中,从$1开始[默认空格分割] 3.awk默认字段分隔符是由内部FS变量来肯定, 可使用-F修订 4.awk行处理时使用了print数打印分割后的字段 5.awk在打印后的字段加上空格,由于$1,$3之间有一个逗号。逗号被映射至OFS内部变量中,称为输出字段分隔符,OFS 默认为空格. 6.awk输出以后,将从文件中获取另外一行,并将其存储在$0中,覆盖原来的内容,而后将新的字符串分隔成字段并进行处理。该过程将持续到全部行处理完毕.
Awk命令格式
#示例1, 匹配 awk 'pattern' filename [root@gjy ~]# awk '/root/' /etc/passwd #示例2, 处理动做 awk '{action}' filename [root@gjy ~]# awk -F: '{print $1}' /etc/passwd #示例3, 匹配+处理动做 awk 'pattern {action}' filename [root@gjy ~]# awk -F ':' '/root/ {print $1,$3}' /etc/passwd [root@gjy ~]# awk 'BEGIN{FS=":"} /root/{print $1,$3}' /etc/passwd #示例4, 判断大于多少则输出什么内容 command |awk 'pattern {action}' [root@gjy ~]# df |awk '/\/$/ {if ($3>50000) print $4}'
02. Awk分隔符
e在学习awk的过程当中,咱们先来快速的熟悉下awk分隔符的做用。 请事先准备以下数据文件: [root@gjy ~]# cat awk_file.txt ll 1990 50 51 61 kk 1991 60 52 62 hh 1992 70 53 63 jj 1993 80 54 64 mm 1994 90 55 65
Awk指定多个分隔符,Awk默认以空白行做为分隔符
#1.如何查看文件中的第一列 [root@gjy ~]# awk '{print $1}' awk_file.txt ll kk hh jj mm #2.若是有的文件不是以空格为分隔符怎么办?好比/etc/passwdh [root@gjy ~]# awk -F: '{print $7}' passwd |tail -1 /bin/bash #3.如何指定多个分隔符,好比想获取第二列的内容? [root@gjy ~]# cat awk_file.txt ll:1990 50 51 61 kk:1991 60 52 62 hh 1992 70 53 63 jj 1993 80 54 64 mm 1994 90 55 65 #以冒号或空格为分隔符 [root@gjy ~]# awk -F '[: ]' '{print $2}' awk_file.txt 1990 1991 1992 1993 1994 #4.指定多个分隔符 [root@gjy ~]# cat awk_file.txt ll::1990 50 51 61 kk:1991 60 52 62 hh 1992 70 53 63 jj 1993 80 54 64 mm 1994 90 55 65 #[: ]+连续的多个冒号当一个分隔符,连续的多个空格当一个分隔符,连续空格和冒号也当作一个字符来处理 [root@gjy ~]# awk -F '[: ]+' '{print $2}' awk_file.txt 1990 1991 1992 1993 1994
03. Awk内部变量
要想了解awk的一些内部变量须要先准备以下数据文件。 [root@gjy ~]# cat awk_file.txt ll 1990 50 51 61 kk 1991 60 52 62 hh 1992 70 53 63 jj 1993 80 54 64 mm 1994 90 55 65
3.1 Awk内置变量NF,保存每行的最后一列
#1.经过print打印,NF和$NF,你发现了什么? [root@gjy ~]# awk '{print NF,$NF}' awk_file.txt 5 61 5 62 5 63 5 64 5 65 #若是将第五行的55置为空,那么该如何在获取最后一列的数字? [root@gjy ~]# awk '{print $5}' awk_file.txt 61 62 63 64 #最后一列为空,为何? #使用$NF为何就能成功?(由于NF变量保存的是每一行的最后一列) [root@gjy ~]# awk '{print $NF}' awk_file.txt 61 62 63 64 65 #2.若是一个文件很长,靠数列数须要很长的时间,那如何快速打印倒数第二列? [root@gjy ~]# awk '{print $(NF-1)}' awk_file.txt 51 52 53 54 90
3.2 Awk内置变量$0,完整的当前文件的内容
[root@gjy ~]# awk '{print $0}' awk_file.txt ll 1990 50 51 61 kk 1991 60 52 62 hh 1992 70 53 63 jj 1993 80 54 64 mm 1994 90 65
3.3 Awk内置变量NR,表示记录行号
#1.使用print打印NR,会发现NR会记录每行文件的行号 [root@gjy ~]# awk '{print NR,$0}' awk_file.txt 1 ll 1990 50 51 61 2 kk 1991 60 52 62 3 hh 1992 70 53 63 4 jj 1993 80 54 64 5 mm 1994 90 65 #2.那若是咱们想打印第二行到第三行的内容怎么办? [root@gjy ~]# awk 'NR>1&&NR<4 {print NR,$0}' awk_file.txt 2 kk 1991 60 52 62 3 hh 1992 70 53 63 #2.那若是只想打印第三行,该怎么办? [root@gjy ~]# awk 'NR==3 {print NR,$0}' awk_file.txt 3 hh 1992 70 53 63 #3.那若是既想打印第三行,又想打印第一列? [root@gjy ~]# awk 'NR==3 {print NR,$1}' awk_file.txt 3 hh
3.4 Awk内置变量FNR,记录输入每一个文件的编号
[root@gjy ~]# awk '{print FNR,$0}' /etc/passwd /etc/hosts
3.5 Awk内置变量,FS指定字段分割符, 默认是空格
#以冒号做为字段分隔符 [root@gjy ~]# awk -F: '/root/{print $1,$3}' /etc/passwd [root@gjy ~]# awk 'BEGIN{FS=":"} {print $1,$3}' /etc/passwd [root@gjy ~]# awk -v FS=: '{print $1,$3}' /etc/passwd #以空格冒号tab做为字段分割 [root@Shell ~]# awk -F '[ :\t]' '{print $1,$2,$3}' /etc/passwd
3.6 Awk内置变量OFS,指定输出字段分隔符
#,逗号映射为OFS, 初始状况下OFS变量是空格 [root@gjy ~]# awk -F: '/root/{print $1,$2,$3,$4}' /etc/passwd [root@gjy ~]# awk 'BEGIN{FS=":"; OFS="+++"} /^root/{print $1,$2}' /etc/passwd [root@gjy ~]# awk -v FS=":" -v OFS="+++" '/^root/{print $1,$2}' /etc/passwd
3.7 Awk内置变量RS,输入记录分隔符,默认为换行符(了解)
[root@gjy ~]# cat test.txt oldboy/oldgirl/olddog [root@gjy ~]# awk 'BEGIN{RS="/"}{print $0}' test.txt oldboy oldgirl olddog
3.8 Awk内置变量ORS,将文件每一行合并为一行,以空格为分割(了解)
[root@gjy ~]# awk 'BEGIN{ORS="#"} {print $0}' /etc/hosts
3.9 Print格式化输出函数
[root@gjy ~]# date|awk '{print "本月是:"$2 "\n今年是:"$NF}' [root@gjy ~]# awk -F: '{print "用户是:" $1 "\t 用户uid: " $3 "\t 用户gid:" $4}' /etc/passwd #printf函数(了解) [root@gjy ~]# awk -F: '{printf "%-15s %-10s %-15s\n", $1, $2, $3}' /etc/passwd #%s字符类型,%d数值类型,占15字符, -表示左对齐,默认是右对齐,printf默认不会在行尾自动换行,加\n
04. Awk模式动做
awk语句都由模式和动做组成。 模式部分决定动做语句什么时候触发及触发事件。 若是省略模式部分,动做将时刻保持执行状态。模式能够是条件语句或复合语句或正则表达式。
4.1 正则表达式
#匹配记录(整行) [root@gjy ~]# awk '/^root/' /etc/passwd [root@gjy ~]# awk '$0 ~/^root/' /etc/passwd #匹配字段:匹配操做符(~ !~) [root@gjy ~]# awk '!/^root/' /etc/passwd [root@gjy ~]# awk '$0 !~ /^root/' /etc/passwd
4.2 比较表达式
比较表达式采用对文本进行比较,只有当条件为真,才执行指定的动做。比较表达式使用关系运算符,用于比较数字与字符串。
关系运算符
运算符含义示例 < 小于 x<y <= 小于等于 x<=y == 等于 x==y != 不等于 x!=y >= 大于等于 x>=y > 大于 x>y
#uid为0的列出来 [root@gjy ~]# awk -F ":" '$3==0' /etc/passwd #uid小于10的所有列出来 [root@gjy ~]# awk -F: '$3 < 10' /etc/passwd #用户登录的shell等于/bin/bash [root@gjy ~]# awk -F: '$7 == "/bin/bash" ' /etc/passwd #第一列为alice的列出来 [root@gjy ~]# awk -F: '$1 == "alice" ' /etc/passwd #为alice的用户列出来 [root@gjy ~]# awk -F: '$1 ~ /alice/ ' /etc/passwd [root@gjy ~]# awk -F: '$1 !~ /alice/ ' /etc/passwd #磁盘使用率大于多少则,则打印可用的值 [root@gjy ~]# df |awk '/\/$/'|awk '$3>1000000 {print $4}'
4.3 条件表达式
[root@gjy ~]# awk -F: '$3>300 {print $0}' /etc/passwd [root@gjy ~]# awk -F: '{if($3>300) print $0}' /etc/passwd [root@gjy ~]# awk -F: '{if($3>5555){print $3} else {print $1}}' /etc/passwd
4.4 运算表达式
[root@gjy ~]# awk -F: '$3 * 10 > 500000' /etc/passwd [root@gjy ~]# awk -F: 'BEGIN{OFS="--"} { if($3*10>50000) {print $1,$3} } END {print "打印ok"}' /etc/passwd [root@gjy ~]# awk -F: '/sshd/{print $3}' passwd 74 [root@gjy ~]# awk -F: '/sshd/{print $3 + 10 }' passwd 84 [root@gjy ~]# awk -F: '/sshd/{print $3 + 10.56 }' passwd 84.56 [root@gjy ~]# awk -F: '/sshd/{print $3 - 10 }' passwd 64 [root@gjy ~]# awk -F: '/sshd/{print $3 * 10 }' passwd 740 [root@gjy ~]# awk -F: '/sshd/{print $3 / 10 }' passwd 7.4 [root@gjy ~]# awk -F: '/sshd/{print $3 % 10 }' passwd 4[root@gjy ~]# awk 'BEGIN{print 85 + 10 }' 95 [root@gjy ~]# awk 'BEGIN{print 85 - 10 }' 75 [root@gjy ~]# awk 'BEGIN{print 85 * 10 }' 850 [root@gjy ~]# awk 'BEGIN{print 85 / 10 }' 8.5 [root@gjy ~]# awk 'BEGIN{print 85 % 10 }' 5 [root@gjy ~]# awk 'BEGIN{print 85 ^ 10 }' 19687440434072264704
4.5 逻辑操做符和复合模式
&& 逻辑与
|| 逻辑或! 逻辑非
#匹配用户名为root而且打印uid小于15的行 [root@gjy ~]# awk -F: '$1~/root/ && $3<=15' /etc/passwd #匹配用户名为root或uid大于5000 [root@gjy ~]# awk -F: '$1~/root/ || $3>=5000' /etc/passwd #匹配不是以root开头的行 [root@gjy ~]# awk '!/^root/' /etc/passwd
Awk示例1:解释其下列命令的含义
# awk '/west/' datafile # awk '/^north/' datafile # awk '$3 ~ /^north/' datafile # awk '/^(no|so)/' datafile # awk '{print $3,$2}' datafile # awk '{print $3 $2}' datafile # awk '{print $0}' datafile # awk '{print "Number of fields: "NF}' datafile # awk '/northeast/{print $3,$2}' datafile # awk '/^[ns]/{print $1}' datafile # awk '$5 ~ /\. [7-9]+/' datafile # awk '$2 !~ /E/{print $1,$2}' datafile # awk '$3 ~ /^Joel/{print $3 "is a nice boy."}' datafile # awk '$8 ~ /[0-9][0-9]$/{print $8}' datafile # awk '$4 ~ /Chin$/{print "The price is $" $8 "."}' datafile # awk '/Tj/{print $0}' datafile # awk -F: '{print "Number of fields: "NF}' /etc/passwd # awk -F"[ :]" '{print NF}' /etc/passwd
Awk示例2
[root@gjy ~]# cat b.txt web qiudao:is a:good boy! [root@gjy ~]# awk '{print NF}' b.txt 4 [root@gjy ~]# awk -F ':' '{print NF}' b.txt 3 [root@gjy ~]# awk -F"[ :]" '{print NF}' b.txt 6
05. Awk条件判断
if语句格式:{ if(表达式){语句;语句;... }} #打印当前管理员用户名称 [root@gjy ~]# awk -F: '{ if($3==0){print $1 "is adminisitrator"} }' /etc/passwd #统计系统用户数量 65 [root@gjy ~]# awk -F: '{ if($3>0 && $3<1000){i++}} END {print i}' /etc/passwd #统计普通用户数量 [root@gjy ~]# awk -F: '{ if($3>1000){i++}} END {print i}' /etc/passwd if...else语句格式:{if(表达式){语句;语句;... }else{语句;语句;...}}[root@gjy ~]# awk -F: '{if($3==0){print $1} else {print $7}}' /etc/passwd [root@gjy ~]# awk -F: '{if($3==0){count++} else{i++}} END{print " 管理员个数: "count ; print " 系统用户数: "i}' /etc/passwd if...else if...else语句格式:{if(表达式 1){语句;语句;... }else if(表达式 2){语句;语句;. .. }else{语句;语句;... }} [root@gjy ~]# awk -F: '{ if($3==0){i++} else if($3>0 && $3<1000){j++} else if($3>1000) {k++}} END {print i;print j;print k}' /etc/passwd [root@gjy ~]# awk -F: '{ if($3==0){i++} else if($3>0 && $3<1000){j++} else if($3>1000) {k++}} END {print "管理员个数"i; print "系统用户个数" j; print "系统用户个数" k }' /etc/passwd
06. Awk循环语句
while循环 [root@gjy ~]# awk 'BEGIN{ i=1; while(i<=10){print i; i++} }' [root@gjy ~]# awk -F: '{i=1; while(i<=NF){print i; i++}}' /etc/passwd [root@gjy ~]# awk -F: '{i=1; while(i<=10) {print $0; i++}}' /etc/passwd [root@gjy ~]# cat b.txt 111 222 333 444 555 666 777 888 999 [root@gjy ~]# awk '{i=1; while(i<=NF){print $i; i++}}' b.txt for循环#C 风格 for [root@gjy ~]# awk 'BEGIN{for(i=1;i<=5;i++){print i} }' #将每行打印 10 次 [root@gjy ~]# awk -F: '{ for(i=1;i<=10;i++) {print $0} }' passwd
07. Awk数组概述
将须要统计的某个字段做为数组的索引,而后对索引进行遍历
7.1 统计/etc/passwd 中各类类型 shell 的数量
[root@gjy ~]# awk -F: '{shells[$NF]++} END{ for(i in shells){print i,shells[i]} }' /etc/passwd
7.2 网站访问状态统计 <当前时实状态ss>
[root@gjy ~]# ss -an|awk '/:80/{tcp[$2]++} END {for(i in tcp){print i,tcp[i]}}'
7.3 统计当前的tcp的11种状态数量<当前时实状态 netstat,ss>
[root@gjy ~]# ss -ant|sed '1d'|awk '{status[$1]++} END {for(i in status){print i,status[i]}}'
08. Awk数组案例
Nginx日志分析,日志格式以下:
log_format main '$remote_addr - $remote_user [$time_local] "$request" ' '$status $body_bytes_sent "$http_referer" ' '"$http_user_agent" "$http_x_forwarded_for"';52.55.21.59 - - [22/Nova/2018:14:55:36 +0800] "GET /feed/ HTTP/1.1" 404 162 "https:#www.google.com/" "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; de) Presto/2.9.168 Version/11.52" "-"
8.1 统计2018年11月22日,当天的PV量
[root@gjy ~]# grep "22/Nov/2018" access.log |wc -l [root@gjy ~]# awk "/22\/Nov\/2018/" access.log |wc -l [root@gjy ~]# awk '/22\/Nov\/2018/ {ips[$1]++} END {for(i in ips) {sum+=ips[i]} {print sum}}' access.log #统计11-12点的pv量 [root@gjy ~]# awk '$4>="[22/Nov/2018:11:00:00" && $4<="[22/Nov/2018:12:00:00 {print $0}"' access.log |wc -l
8.2 统计2018年11月22日,一天内访问最多的10个IP
[root@gjy ~]# awk '/22\/Nov\/2018/ {ips[$1]++} END {for(i in ips){ print ips[i],i}}' access.log |sort -rn|head #统计11-12点访问次数最多的10个IP [root@gjy ~]# awk '$4>="[22/Nov/2018:15:00:00" && $4<="[22/Nov/2018:19:00:00"' access.log |awk '{ips[$1]++} END {for(i in ips){print ips[i],i}}'|sort -rn|head
8.3 统计2018年11月22日,访问大于100次的IP
[root@gjy ~]# awk '/22\/Nov\/2018/ {ips[$1]++} END {for(i in ips){if(ips[i]>100){print i,ips[i]}}}' access.log
8.4 统计2018年11月22日,访问最多的10个页面($request top 10)
[root@gjy ~]# awk '/22\/Nov\/2018/ {request[$7]++} END {for(i in request){print request[i],i}}' access.log |sort -rn|head
8.5 统计2018年11月22日,每一个URL访问内容总大小($bodybytessent)
[root@gjy ~]# awk '/22\/Nov\/2018/{size[$7]+=$10} END {for(i in size){print size[i],i}}' access.log |sort -rn|head
8.6 统计2018年11月22日,每一个IP访问状态码数量($status)
[root@gjy ~]# awk '{ip_code[$1 " " $9]++} END {for(i in ip_code){print ip_code[i],i}}' access.log|sort -rn|head
8.7 统计2018年11月22日,访问状态码为404及出现的次数($status)
[root@gjy ~]# grep "404" access.log |wc -l [root@gjy ~]# awk '{if($9=="404") code[$9]++} END {for(i in code){print i,code[i]}}' access.log
8.8 统计2018年11月22日,8:30-9:00访问状态码是404
[root@gjy ~]# awk '$4>="[22/Nov/2018:15:00:00" && $4<="[22/Nov/2018:19:00:00" && $9=="404" {code[$9]++} END {for(i in code){print i,code[i]}}' access.log [root@gjy ~]# awk '$9=="404" {code[$9]++} END {for(i in code){print i,code[i]}}' access.log
8.9 统计2018年11月22日,各类状态码数量
[root@gjy ~]# awk '{code[$9]++} END {for(i in code){print i,code[i]}}' access.log
8.10 统计日志中全部URL访问的次数及访问响应的内容总大小
[root@gjy ~]# awk '{request[$7]++;size[$7]+=$10} END {for(i in request){print request[i],i,size[i]}}' access.log |sort -rn|head