10.2正则表达式二

正则表达式二linux

一 printf命令正则表达式

·介绍shell

printf是一个把从标准输入的字符按照你所要求的格式输出到标准输出即屏幕的命令. 在不少时候,咱们可能须要将本身的数据给他格式化输出的。例如考试分数的输出:假设有一个文件test.txt记录着考试分数,内容以下图所示:ide

上表的数据主要分红五个字段,各个字段之间可以使用 tab 或空格键进行分隔工具

·printf命令格式:spa

printf     '打印格式'     实际内容命令行

关于格式方面的几个特殊样式3d

·应用regexp

例如1:下列命令是以整数形式输出23并换行;以字符串形式输出hello并换行.blog

例如2:下列命令是以4位整数形式输出23并换行;以7位字符串形式输出hello并换行.

例如3:

如上所示,printf命令的输出结果并无对齐,%s表明一个不固定长度的字符串,而字符串与字符串中间就以 \t 这个 [tab] 分隔符来处理。既然每一个字段的长度不固定会形成上述的困扰,那我将每一个字段固定就好啦。

将test.txt文件中的内容,分别以字符串、整数、小数点来显示:

上面的格式共分为五个字段, s 表明的是一个长度为 10 个字符的字符串字段,%5i 表明的是长度为 5 个字符的数字字段,至于那个 %8.2f 则表明长度为 8 个字符的具备小数点的字段,其中小数点有两个字符宽度;所有的宽度仅有 8 个字符,整数部分占有 5 个字符,小数点自己 (.) 占一位,小数点后的位数则有两位。

printf 除了能够格式化处理以外,他还能够依据ASCII 的数字与字符对应来显示数据,举例来讲 16 进位的 55 能够获得什么 ASCII 的显示字符?

二 awk命令

·介绍

awk也是一个数据处理工具!相较于 sed 经常做用于一整个行的处理, awk 则比较倾向于一行当中分红数个字段来处理

.awk语言的最基本功能是在文件或字符串中基于指定规则来分解抽取信息,也能够基于指定的规则来输出数据

·命令格式

有三种方式调用awk

1.命令行方式

awk [-F field-separator] 'commands' input-files

其中,[-F域分隔符]是可选的,由于awk使用空格或tab键做为缺省的域分隔符,所以若是要浏览域间有空格的文本,没必要指定这个选项,若是要浏览诸如passwd文件,此文件各域以冒号做为分隔符,则必须指明-F选项,如:awk -F: 'commands' input-file。

注:在linux系统中用环境变量IFS存储分隔符,但根据实际应用也能够改变IFS的值.

例如:

脚本执行结果以下:

commands 是真正awk命令, input-files 是待处理的文件。

iput_files能够是多于一个文件的文件列表,awk将按顺序处理列表中的每一个文件。

在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。一般,在不指名-F域分隔符的状况下,默认的域分隔符是空格或tab键。

2.shell脚本方式

将全部的awk命令插入一个文件,并使awk程序可执行,而后awk命令解释器做为脚本的首行,以便经过键入脚本名称来调用。

至关于shell脚本首行的:#!/bin/sh能够换成:#!/bin/awk

3.将全部的awk命令插入一个单独文件,而后调用:

Awk     -f     awk-script-file     input-files

其中,-f选项加载awk-script-file中的awk脚本,input-files跟上面的是同样的。

awk的模式和动做

任何awk语句都由模式和动做组成(awk_pattern { actions })。
在一个awk脚本中可能有许多语句。

模式部分决定动做语句什么时候触发及触发事件。处理即对数据进行的操做。若是省略模式部分,动做将时刻保持执行状态。即省略时不对输入记录进行匹配比较就执行相应的actions。

模式能够是任何条件语句或正则表达式等。awk_pattern能够是如下几种类型:

1) 正则表达式用做awk_pattern: /regexp/

例如:awk '/ ^[a-z]/' input_file

2) 布尔表达式用做awk_pattern,表达式成立时,触发相应的actions执行。

① 表达式中可使用变量(如字段变量$1,$2等)和/regexp/

② 布尔表达式中的操做符:

关系操做符: < > <= >= == !=
匹配操做符: value ~ /regexp/ 若是value匹配/regexp/,则返回真
value !~ /regexp/ 若是value不匹配/regexp/,则返回真
例如: awk '$2 > 10 {print "ok"}' input_file
awk '$3 ~ /^d/ {print "ok"}' input_file

③ &&(与) 和 ||(或) 能够链接两个/regexp/或者布尔表达式,构成混合表达式。!(非) 能够用于布尔表达式或者/regexp/以前。

 

例如: awk '($1 < 10 ) && ($2 > 10) {print "ok"}' input_file
awk '/^d/ || /x$/ {print "ok"}' input_file

模式包括两个特殊字段 BEGIN和END。使用BEGIN语句设置计数和打印头。BEGIN语句使用在任何文本浏览动做以前,以后文本浏览动做依据输入文本开始执行。END语句用来在awk完成文本浏览动做后打印输出文本总数和结尾状态标志。

实际动做在大括号{ }内指明。动做大多数用来打印,可是还有些更长的代码诸如i f和循环语句及循环退出结构。若是不指明采起动做,awk将打印出全部浏览出来的记录。

awk执行时,其浏览域标记为$1,$2...$n。这种方法称为域标识。使用这些域标识将更容易对域进行进一步处理。

使用$1 , $3表示参照第1和第3域,注意这里用逗号作域分隔。若是但愿打印一个有5个域

的记录的全部域,没必要指明$1 , $2 , $3 , $4 , $5,可以使用$0,意即全部域。

为打印一个域或全部域,使用print命令。这是一个awk动做

awk的运行过程:

  1. 若是BEGIN 区块存在,awk执行它指定的actions。
  2. awk从输入文件中读取一行,称为一条输入记录。(若是输入文件省略,将从标准输入读取)
  3. awk将读入的记录分割成字段,将第1个字段放入变量$1中,第2个字段放入$2,以此类推。$0表示整条记录。
  4. 把当前输入记录依次与每个awk_cmd中awk_pattern比较,看是否匹配,若是相匹配,就执行对应的actions。若是不匹配,就跳过对应的actions,直到比较完全部的awk_cmd。
  5. 当一条输入记录比较了全部的awk_cmd后,awk读取输入的下一行,继续重复步骤③和④,这个过程一直持续,直到awk读取到文件尾。
  6. 当awk读完全部的输入行后,若是存在END,就执行相应的actions。

·应用

例1:显示/etc/passwd文件中的用户名和登陆shell

若是只是显示/etc/passwd的帐户和帐户对应的shell,而帐户与shell之间以tab键分割

若是只是显示/etc/passwd文件中的用户名和登陆shell, 而帐户与shell之间以逗号分割

注:awk的老是输出到标准输出,若是想让awk输出到文件,可使用重定向。

例2:显示/etc/passwd文件中的UID大于500的全部用户的用户名和登陆shell

例3:若是只是显示/etc/passwd文件中的UID大于500的用户名和登陆shell,而帐户与shell之间以逗号分割,并且在全部行添加列名name,shell,在最后一行添加"blue,/bin/nosh"。

注:

1.awk 后面接两个单引号并加上大括号 {} 来设定想要对数据进行的处理动做

2.awk工做流程是这样的:先执行BEGING,而后读取文件,读入有\n换行符分割的一条记录,而后将记录按指定的域分隔符划分域,填充域,$0则表示全部域,$1表示第一个域,$n表示第n个域,随后开始执行模式所对应的动做。接着开始读入第二条记录······直到全部的记录都读完,最后执行END操做。

思考题:如何打印全部记录(以/etc/passwd中的内容为例)

例4:搜索/etc/passwd有root关键字的全部行

这种是pattern(模式)的使用示例,匹配了pattern(这里是root)的行才会执行action(没有指定action,默认输出每行的内容)。

搜索支持正则表达式,例如找root开头的:

搜索/etc/passwd有root关键字的全部行,并显示对应的shell

这里指定了action是{print $7}

例5:显示最近登陆系统的5个用户信息,只显示用户名和IP地址

使用last命令能够查看最近登陆的用户信息。以下图所示:

使用awk命令抽取用户名和IP区域的数据

awk内置变量

awk有许多内置变量用来设置环境信息,下面给出了最经常使用的一些变量。

FILENAME awk浏览的文件名

FS 设置输入域分隔符,等价于命令行-F选项

NF 浏览记录的域个数(每一行($0)拥有的字段总数)

NR 已读的记录数(awk所处理的是第几行数据)

例6:统计/etc/passwd:文件名,每行的行号,每行的列数,对应的完整行内容:

显示全部帐户的记录,并带有其记录号,并在END部分打印输入文件名

除了awk的内置变量,awk还能够自定义变量

7:统计/etc/passwd的帐户人数

count是自定义变量。以前的action{}里都是只有一个print,其实print只是一个语句,而action{}能够有多个语句,以;号隔开。

这里没有初始化count,虽然默认是0,可是稳当的作法仍是初始化为0:

例8:统计某个文件夹下的文件占用的字节数

若是以M为单位显示:

注意:以上统计没有包括子目录中的文件。

若是想快速查看全部文件的长度及其总和,但要排除子目录,如何实现:

相关文章
相关标签/搜索