Perl一行式：字段处理和计算

时间 2019-11-06

标签 perl 一行字段处理计算栏目 Perl 繁體版

原文原文链接

perl一行式程序系列文章：Perl一行式html

获取每行最后一个字段

$ perl -alne 'print $F[$#F]' file.log

这里涉及到了选项"-a"、数组@F。这里同时还会解释-F选项，它和-a常一块儿使用。数组

选项"-a"和awk的自动字段分割同样，会自动将每行数据划分为几个字段。划分字段的分隔符由-F选项指定。若是没有指定-F，则默认以空白符号进行分割(连续空格被认为是单空格)。安全

分割后的元素全都收集到一个数组@F中，因此第一个字段的内容是$F[0]，最后一个字段是$F[-1]或$F[$#F]。函数

若是想取多个字段，能够对数组@F进行切片，例如第3个字段和第第5个字段@F[2,4]，第3个字段到倒数第二个字段是@F[2..$#F-1]或@F[1..~~@F-2]。spa

获取范围字段

正如上面所解释的，若是想要获取第二个字段到倒数第二个字段：code

$ perl -lane 'print "@F[1..~~@F-2]"' file.log
$ perl -lane 'print "@F[1..$#F-1]"' file.log

指定字段分隔符

之因此单独拿出来解释，是由于"-F"指定分隔符时，空白符号的特殊之处。htm

对于普通字符，-F天然没有什么问题：blog

$ perl -F: -alne 'print $F[1]' /etc/passwd

可是想指定空白字符做为字段的分隔符时，"-F"选项将出现故障：内存

$ perl -F" " -alne 'print $F[1]' file.log
o
a
i
y
y

发现空格分隔符根本没起做用，而是按照NUL做为分隔符对每一个字符都分割了。ci

这个问题在-F选项的官方手册中已经注明了：

You can't use literal whitespace or NUL characters in the pattern

若是想要指定空白符号做为字段分隔符，能够考虑其它方式。例如使用\s的正则模式，或者直接不使用-F，而是直接在-e表达式中使用split函数进行行的分割。

$ perl -F'\s+' -anle 'print $F[1]' file.log
$ perl -alne 'split / /;print $F[1]' file.log

计算全部行数值的总和

假如文件内容为：

1 3 5 9
2 3 1
10 2 3 6

想要总计全部这些数值之和，可使用以下方式：

$ perl -M'List::Util=sum' -alne '$num += sum @F;END{print $num}' file.log

或者，将全部行读取到数组中，最后对数组加总：

$ perl -M'List::Util=sum' -alne 'push @S,@F;END{print sum @S}' file.log

这种方式对于大文件确定是不如前一种方式友好的，由于它会将全部行内容都存储起来，而前一种方式为全部行都只存储一个结果$num，占用的内存要低的多的多。

打乱字段的顺序

$ perl -M'List::Util=shuffle' -alne 'print "@{[shuffle @F]}"' file.log

在List::Util模块中有一个函数shuffle，它会按照随机的顺序打乱一个列表(了解便可，这不是本文的重点)。例如：

$ perl -M'List::Util=shuffle' -le 'print "@{[shuffle 1..10]}"'
8 1 3 7 10 5 2 4 6 9
$ perl -M'List::Util=shuffle' -le 'print "@{[shuffle 1..10]}"'
1 2 7 10 8 4 3 5 6 9
$ perl -M'List::Util=shuffle' -le 'print "@{[shuffle 1..10]}"'
2 5 7 1 4 6 3 8 9 10

这里我想介绍的重点是"@{[ shuffle @F ]}"，它是让一个操做能够插入到双引号中的方法，这个在Perl一行式必知语法基础解释过。

虽然目的是插入到双引号中，但它的最终目标是为了让数组元素输出时以空格分隔。因此，这种技巧不是惟一的方法，见下一小节。

指定字段输出分隔符(无引号包围)

上一小节经过@{[shuffle @F]}的方式能够将打乱数组的操做插入到双引号中。下面是其它方法。

1.指定数组的字段输出分隔符$,。

$ perl -M'List::Util=shuffle' -alne 'BEGIN{$,=" "}print shuffle @F' file.log

默认状况下，print/say输出列表的时候，若是数组/列表不插入到双引号中，各元素之间紧连在一块儿被输出：

$ perl -le '@arr=qw(Shell Perl Python);print @arr'
ShellPerlPython

特殊变量$,指定的就是print/say输出数组且不插入双引号时的元素分隔符，其默认值为undef。

例如指定为空格：

$ perl -le '
    @arr=qw(Shell Perl Python);
    $,=" ";
    print @arr'
Shell Perl Python

2.将列表join成字符串，join的链接符指定为空格便可。

$ perl -M'List::Util=shuffle' -anle 'print join " ",shuffle @F' file.log

指定字段分隔符(引号包围)

变量$,控制无双引号包围的数组/列表在print/say输出时的元素分隔符。其实双引号包围的数组/列表被print/say输出时也能够指定元素分隔符。

控制输出双引号包围的列表的元素分隔符的特殊变量是$"，默认值为空格。

# 默认空格分隔双引号中的元素
$ perl -le '
    @arr = qw(Shell Perl PHP Python);
    print "@arr"'
Shell Perl PHP Python

# $"改变双引号中的元素分隔符
$ perl -le '
    @arr = qw(Shell Perl PHP Python);
    $" = ":";
    print "@arr"'
Shell:Perl:PHP:Python

全部行中最小数值

假如文件内容为：

1 3 0 9
2 -3 1
10 -2 -3 6

全部行的最小值为-3，如何取得？

最简单的方式是将全部行都读入并保存到数组中，而后使用List::Util模块的min函数取得。

$ perl -M'List::Util=min' -anle 'push @nums,@F;END{print min @nums}' num.log

但这对于大文件来讲内存占用率会很高。比较好的方式是从每行中取出最小值，保留到数组中，最后从这个数组中取出最小值(稍后继续解释更好的方式)。

$ perl -M'List::Util=min' -anle '
    push @nums,min @F;
    END{print min @nums}' num.log

若是文件的行数量很是大，这也会在内存中保留不少数值，也不是最佳方式。

更好的方式是从每行中取出最小值保存下来，而后和后面的行结合在一块儿取最小值。这样的方式使得整个处理过程都只占用一行内存空间。

$ perl -M'List::Util=min' -anle '
    $min = min ($min // (),@F);
    END{print $min};' num.log

这里的关键是min $min//(),@F。

首先，$min//()表示若是$num未定义，则返回空列表()，不然返回$min。若是这里不进行$min是否已定义的判断，那么第一次使用$min的时候，它被看成空。因此若是文件中没有负数，下面的操做将会所以而返回空。

$ perl -M'List::Util=min' -anle '
    $min = min ($min,@F);
    END{print $min};' num.log

再者，上面$min//()在$min未定义的时候返回的是空列表()，不能编写为返回0或空，不然就多出了一个要比较的值。

最后，min函数操做的是一个列表，而Perl会将多个列表压扁造成一个大列表，因此$min//(),@F被压成了一个被min函数操做的列表，而()表示空列表，这使得第一次使用$min的时候不会影响要比较的值。

将全部数值取绝对值

假如文件内容为：

1 3 0 9
2 -3 1
10 -2 -3 6

要返回全部数值的绝对值，能够借用默认函数abs来操做。

简单的逻辑能够遍历@F，并应用abs函数，最后追加回列表被输出：

$ perl -lane '
    @line=();
    for(@F){push @line,abs};
    print "@line";
    ' num.log

在Perl中，对于列表中每一个元素都要检查、操做的情形，可使用map函数。map函数太强大了，堪称逆天级，map的详细用法参见Perl map用法详解。这里根据此处需求给出map的使用示例：

$ perl -lane 'print "@{[map {abs} @F]}"' num.log

其中map {op} LIST表示对LIST中的每一个元素都执行op操做，操做后的值构成一个新列表。@{[ ]}的格式在前面已经出现屡次了，再也不解释。

统计全部匹配字段数量

$ perl -lane '/pattern/ && ++$num for @F;END{print $num || 0}' file.log

这种统计方式是安全的。先划分字段，而后匹配每一个字段，只要匹配到就将计数器变量加1。最后输出计数器的值。但可能匹配不到任何东西，因此必须给计数器变量设置一个默认值，也就是$num || 0。

另外一种改写方式是：

$ perl -anle '$t += /pattern/ for @F;END{print $t}' file.log

这里采用的赋值方式$t += /pattern/，由于/pattern/返回的是匹配成功的数量，不匹配成功则会返回0，因此无需像前面同样设置计数器变量的默认值。

若是使用grep来改写，则一行式命令以下：

$ perl -alne '$num += grep /pattern/,@F;END{print $num}' file.log

grep返回一个新的表示能匹配的元素列表，可是在标量上下文中列表返回的是元素个数，因此可直接加总计算。

生成10个5-15之间的随机数

$ perl -le 'print "@{[ map int(rand(10)+5),1..10 ]}"'
10 9 9 11 13 10 14 12 13 6

rand(10)表示生成0-9之间的随机浮点数，int(rand(10))表示生成0-9之间的随机整数，加上5表示5-14的随机整数，整个过程执行10次，因此生成了10个随机整数。

生成字母表

$ perl -le 'print a..z'
abcdefghijklmnopqrstuvwxyz

更准确的写法是加上双引号：

$ perl -le 'print "a".."z"'
abcdefghijklmnopqrstuvwxyz

逗号分隔字母表：

$ perl -le 'print join ",","a".."z"'
a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z

输出"a"到"zz"：

$ perl -le '"a".."zz"'

..符号会按照字符序列进行递增，"z"递增后获得"aa"，再递增获得"ab"，"az"递增获得"ba"，依次类推。因此这里会返回大量字符(共702个字符)：

a..z
aa..az
ba..bz
...
xa..xz
ya..yz
za..zz

生成8字符随机密码

$ perl -le 'print map { ("a".."z")[rand 26] } 1..8'

这里("a".."z")[rand 26]取26个字母中的一个随机字母，1..8表示生成8个字符。

若是想要包含大小写字母、数字，能够：

$ perl -le 'print map { ("a".."z","A".."Z",0..9)[rand 62] } 1..8'

生成8字符随机密码，包含特殊字符

若是想要让生成的随机密码中包含大小写字母、数字、各类标点符号，能够经过ascii码表来指定范围，而后使用chr函数来转换ascii码为字符。

根据ascii，从33开始到126结束是大小写字母、数字、各类标点符号部分。因此：

$ perl -le 'print map { chr int(rand(94)) + 33 } 1..8'

int(rand(94) + 33)表示生成33-126(包括126)之间的随机整数，chr函数能够将数值转换为对应的字符。

$ for i in `seq 1 10`;do
    perl -le 'print map {chr int(rand(94))+33} 1..8'
done

>t]>W69#
>]e<Hub6
D}R1l)._
*(HKFZ6Q
x++\"=1O
@K)%.N@s
sSji5&FX
o+.#?@/x
^6[l~%-k
.bkTKA[%