Linux的文本处理工具浅谈mysql
【功能说明】react
用于文本处理的语言(取行,过滤),支持正则
NR表明行数,$n取某一列,$NF最后一列
NR==20,NR==30 从20行到30行
FS竖着切,列的分隔符
RS横着切,行的分隔符
【语法格式】正则表达式
awk [–F] [“[分隔符]”] [’{print$1,$NF}’] [目标文件] awk 'BEGIN{FS="[列分隔符]+";RS="[行分隔符]+";print "-GEGIN-"} NR==n{动做} END{print "-END-"}' xxx.txt
【内置变量】sql
$n 当前记录的第n个字段,字段间由 FS分隔。 $0 完整的输入记录。 ARGC 命 令行参数的数目。 ARGIND 命令行中当前文件的位置(从0开始算)。 ARGV 包 含命令行参数的数组。 CONVFMT 数字转换格式(默认值为%.6g) ENVIRON 环 境变量关联数组。 ERRNO 最后一个系统错误的描述。 FIELDWIDTHS 字 段宽度列表(用空格键分隔)。 FILENAME 当前文件名。 FNR 同 NR,但相对于当前文件。 FS 字段分隔符(默认是任何空格)。 IGNORECASE 如 果为真,则进行忽略大小写的匹配。 NF 当前记录中的字段数。 NR 当 前记录数。 OFMT 数字的输出格式(默认值是%.6g)。 OFS 输 出字段分隔符(默认值是一个空格)。 ORS 输出记录分隔符(默认值是一个换行符)。 RLENGTH 由 match函数所匹配的字符串的长度。 RS 记录分隔符(默认是一个换行符)。 RSTART 由 match函数所匹配的字符串的第一个位置。 SUBSEP 数组下标分隔符(默认值是\034)。
【运算符】数据库
= += -= *= /= %= ^= **= 赋值 ?: C条件表达式 || 逻 辑或 && 逻辑与 ~ ~! 匹 配正则表达式和不匹配正则表达式 < <= > >= != == 关 系运算符 空格 链接 + - 加,减 * / & 乘,除与求余 + - ! 一元加,减和逻辑非 ^ *** 求幂 ++ -- 增长或减小,做为前缀或后缀 $ 字 段引用 in 数组成员
【字符串函数】
sub 匹配记录中最大、最靠左边的子字符串的正则表达式,并用替换字符串替换这些字符串。若是没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的 时候 gsub 整个文档中进行匹配 index 返回子字符串第一次被匹配的位置,偏移量从位置1开始 substr 返回从位置1开始的子字符串,若是指定长度超过实际长度,就返回整个字符串 split 可按给定的分隔符把字符串分割为一个数组。若是分隔符没提供,则按当前FS值进行分割 length 返回记录的字符数 match 返回在字符串中正则表达式位置的索引,若是找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位 置,RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串 toupper和tolower 可用于字符串大小间的转换,该功能只在gawk中有效
【字符串函数】
atan2(x,y) y,x 范围内的余切 cos(x) 余弦函数 exp(x) 求 幂 int(x) 取整 log(x) 天然对 数 rand() 随机数 sin(x) 正弦 sqrt(x) 平 方根 srand(x) x是rand()函数的种子 int(x) 取 整,过程没有舍入 rand() 产生一个大于等于0而小于1的随机数
【使用范例】c#
一、只查看 ett.txt 文件(共 100 行)内第 20 到第 30 行的内容
awk ‘NR>19&&NR<31’ ett.txt awk ‘{ if (NR>19&&NR<31) print $0}’ ett.txt
二、给文件内容加行号
awk ‘{print NR,$0}’ /etc/inittab
三、输出第24行而且加行号
awk ‘NR==24 {print NR,$0}’ /etc/inittab
四、标准写法
awk -F '[ :]+' 'NR==2{print $(NF-1)}' /etc/passwd 至关于 awk 'BEGIN{FS="[ :]+"}NR==2{print $(NF-1)}' /etc/passwd awk 'BEGIN{RS="/"} {print $0}' /etc/passwd
五、以一个或多个/为行的分割符,打印第二行的第二列,列的分隔符为默认的空格,并打印行号
awk 'BEGIN{RS="[/]+"} NR==2{print NR,$2}' test
awk支持正则:
六、以:为分隔符,打印第5列以s开头的一整行
awk -F ":" '$5~/^s/{print $0}' /etc/passwd
七、以/为分隔符,匹配倒数第二行的s或者没有s后面是bin的整行
awk -F "/" '$(NF-1)~/(s|)bin/' /etc/passwd
八、匹配第一列以ssh或者ftp或mysql开头或者结尾的行
awk '$1~/^(ssh|ftp|mysql)$/{print $1,$2}' /etc/services
九、输出结果6 0 1 2
echo "6@@@@@@@@@@@@@@@0=============1##############2" |awk -F '[@=#]+' '{print $1,$2,$3,$4}'
十、
awk 'BEGIN{print "---BEGIN---"} NR==2{print $2} END{print "---END----"}' xxx.conf
十一、awk统计百分比的问题数组
例一:tomcat
十二、关联数组访问问题
a.txt和b.txt两个文件相同的两个字段(id|money),输出a和b文件中相同id而且b文件money值大的一行
cat >>a.txt <<EOF 1|1 3|3 5|5 7|7 9|9 EOF
cat >>b.txt<<EOF 1|1 2|2 3|30 4|4 5|5 6|6 7|70 8|8 9|9 10|10 EOF
awk -F '|' 'BEGIN{ while(getline < "a.txt") { user_map[$1] = $2; } } { if ($1 in user_map) { if (user_map[$1] < $2) print $0; } }' b.txt
注意:若是a.txt不存在,getline会返回-1,致使死循环。我之前曾经碰上过由于这个缘由致使程序挂死,因此特别提出来让你们注意
1三、99乘法表
awk 'BEGIN{for(i=1;i<10;i++){for (j=1;j<=i;j++)printf "%d%s%d%s%d\t",i,"x",j,"=",i*j;print}}'
1四、tomcat并发数
netstat -an|grep 10050|awk '{count[$6]++} END{for (i in count) print(i,count[i])}'
【功能说明】
Sed是Strem Editor(流编辑器)缩写,是操做、过滤和转换文本内容的强大工具。经常使用功能有增删改查,过滤,取行。
参数
-n #取消默认输出 -r #使用扩展正则 -i #刷到磁盘 -e #执行多条sed指令 -f #指令放在文件里
sed-command
a 追加 i 插入 d 删除 c 替换指定的行 s 替换每一行匹配到的第一个字符 g 替换每一行的所有 p 输出 w 另存文件 e 执行bash命令 q 不继续往下读取
归纳流程:Sed软件从文件或管道中读取一行,处理一行,输出一行;再读取一行,再处理一行,再输出一行……
a 追加文本到指定行后
i 插入文本到指定行前
单行增长
sed '2a 106,dandan,CSO' person.txt sed '2i 106,dandan,CSO' person.txt
多行增长
sed '2a 106,dandan,CSO\n107,bingbing,CCO' person.txt
企业案例1:优化SSH配置(一键完成增长若干参数)
在咱们学习系统优化时,有一个优化点:更改ssh服务远程登陆的配置。主要的操做是在ssh的配置文件加入下面5行文本。(下面参数的具体含义见其余课程。)
Port 52113 PermitRootLogin no PermitEmptyPasswords no UseDNS no GSSAPIAuthentication no
咱们可使用vi命令编辑这个文本,但这样就比较麻烦,如今想一条命令增长5行文本到第13行前?
sed -ir '13 i ####Chris-sshd-2016.5.4-youhua######\nPort 52113\nPermitRootLogin no\nPermitEmptyPasswords no\nUseDNS no\nGSSAPIAuthentication no\n#####--end--#######\n' /etc/ssh/sshd_config
地址用逗号分隔的,n1,n2能够用数字、正则表达式、或两者的组合表示。
其余使用例子
10{sed-commands} 对第10行操做
10,20{sed-commands} 对10到20行操做,包括第10,20行
10,+20{sed-commands} 对10到30(10+20)行操做,包括第10,30行
1~2{sed-commands} 对1,3,5,7,……行操做
10,${sed-commands} 对10到最后一行($表明最后一行)操做,包括第10行
/oldboy/{sed-commands} 对匹配oldboy的行操做
/oldboy/,/Alex/{sed-commands} 对匹配oldboy的行到匹配Alex的行操做
/oldboy/,${sed-commands} 对匹配oldboy的行到最后一行操做
/oldboy/,10{sed-commands} 对匹配oldboy的行到第10行操做,注意:若是前10行没有匹配到oldboy,sed软件会显示10行之后的匹配oldboy的行,若是有。
1,/Alex/{sed-commands} 对第1行到匹配Alex的行操做
/oldboy/,+2{sed-commands} 对匹配oldboy的行到其后的2行操做
d 删除指定的行
sed 'd' person.txt #删除所有
sed '2d' person.txt #删除第二行
sed '2,5d' person.txt #删除2到5行
sed '3,$d' person.txt #删除3到结尾
sed '1~2d' person.txt #删除1,3,5行
sed '1,+2d' person.txt #删除1,2,3
sed '/zhangyao/d' person.txt #删除匹配的zhangyao行
sed '/oldboy/,/Alex/d' person.txt #删除匹配oldboy到Alex行
sed '/oldboy/,3d' person.txt #删除从匹配oldboy的3行
企业案例2:打印文件内容但不包含oldboy
sed '/oldboy/d' person.txt #删除包含"oldboy"的行
c 用新行取代旧行
sed '2c 106,dandan,CSO' person.txt #替换第2行的内容
s:单独使用,将每一行中第一处匹配的字符串进行替换
g:每一行进行所有替换
-i:修改文件内容
sed软件替换模型(方框▇被替换成三角▲)
sed -i 's/▇/▲/g' oldboy.log sed -i 's#▇#▲#g' oldboy.log
企业案例3:指定行修改配置文件
指定行精确修改配置文件,这样能够防止修改多了地方。
sed '3s#0#9#' person.txt
x=a y=b echo $x $y sed s#$x#$y#g test.txt
sed软件的\( \)的功能能够记住正则表达式的一部分,其中,\1为第一个记住的模式即第一个小括号中的匹配内容,\2第二记住的模式,即第二个小括号中的匹配内容,sed最多能够记住9个。
例:echo I am oldboy teacher.若是想保留这一行的单词oldboy,删除剩下的部分,使用圆括号标记想保留的部分。
echo I am oldboy teacher. |sed 's#^.*am \([a-z].*\) tea.*$#\1#g' echo I am oldboy teacher. |sed -r 's#^.*am ([a-z].*) tea.*$#\1#g' echo I am oldboy teacher. |sed -r 's#I (.*) (.*) teacher.#\1\2#g'
命令说明
思路:用oldboy字符替换I am oldboy teacher.
下面解释用□代替空格
企业案例4:系统开机启动项优化
chkconfig --list|grep "3:on"|grep -vE "sshd|crond|network|rsyslog|sysstat"|awk '{print $1}'|sed -r 's#^(.*)#chkconfig \1 off#g'|bash chkconfig --list|grep "3:on"
#→将1到3行的C替换为--C--
sed '1,3s#C#--&--#g' person.txt #→此处&等于C
企业案例5:批量重命名文件
for i in `seq 5`;do touch stu_102999_${i}_finished.jpg;done ls |sed -r 's/(.*)_finished(.*)/mv & \1_finish\2/e'
p 输出指定内容,但默认会输出2次匹配的结果,所以使用n取消默认输出
sed '2p' person.txt sed -n '2p' person.txt sed -n '2,3p' person.txt sed -n '1~2p' person.txt sed -n 'p' person.txt
sed -n '/CTO/p' person.txt sed -n '/CTO/,/CFO/p' person.txt
sed -n '2,/CFO/p' person.txt sed -n '/feixue/,2p' person.txt
#特殊状况,前两行没有匹配到feixue,就向后匹配,若是匹配到feixue就打印此行。
备份功能
sed -i.bak '$a 1111111111' xxx.txt
备份xxx.txt文件为xxx.txt.bak,修改源文件,最后一行添加111111111
另存功能
sed 's/sb/SB/g w new.txt' xxx.txt
把sb替换成SB的整行输出到new.txt中
大小写转换
\L #所有转换成小写
\l #单个转换成小写
\U #所有转换成大写
\u #单个转换成大写
\E #须要和\U和\L一块儿使用,关闭\U和\L的功能
sed -r 's/(.*),(.*),(.*)/\L\3,\E\1,\U\2/g' xxx.txt
执行多条sed指令
sed -e '3,$d' -e 's#10#01#g' xxx.txt sed '3,$d; s#10#01#g' xxx.txt
打印不可见字符l
sed -n 'l' xxx.txt
abc替换ABC(一一对应)
tr 'abc' 'ABC' xxx.txt sed 'y#abc#ABC#' xxx.txt
能够操做多个文件
sed 'y#abc#ABC#' xxx.txt 222.txt
模拟其余命令
建立svn库的时候自动取消#号和修改路径
sed -i -r '12,13s/# //g' svnserve.conf sed -i -r '20s/^# (.*)/\1/g' svnserve.conf sed -i -r '27s/^# (.*)/\1/g' svnserve.conf sed -i -r '12,13s/^# (.*)/\1/g' svnserve.conf sed -i -r '32s/# (.*=)(.*)/\1 \/usr\/svnData\//' svnserve.conf
一条命令执行(加传参)
SvnPath='zhangzhicheng' sed -i -r -e '20s/^# (.*)/\1/g' -e '27s/^# (.*)/\1/g' -e '12,13s/^# (.*)/\1/g' -e "32s/# (.*=)(.*)/\1 \/usr\/svnData\/$SvnPath/" svnserve.conf
【功能说明】
三剑客老三。搜索文本,过滤文本字符串 –v取反
【选项说明】
参数选项 |
解释说明(带※的为重点) |
-V |
取反,读出指定的内容以外的内容 |
-A |
打印后面n行的内容 |
-B |
打印前面n行的内容 |
-C |
打印先后各n行的内容 |
-n |
输出行行号 |
-E(egrep) |
使用扩展正则表达式 |
-o |
只输出匹配到的结果 |
-i |
忽略大小写 |
-a |
当grep认为是二进制文件的时候加-a |
【基础范例】
例子1:已知文件 test.txt 内容为:
test
liyao
oldboy
请给出输出 test.txt 文件内容时,不包含 oldboy 字符串的命令。
grep –v oldboy test.txt
例子2:过滤出/etc/services 文件包含 3306 或 1521 两数据库端口的行的内容
grep –E “3306|1521” /etc/services
例子3:
【技巧例子】
消除文件空行:
grep -v '^$' test.txt egrep -o "^[^:]+" xxx.txt #匹配开头以非:的行,并输出匹配的内容(-o不是整行输出)