正则表达式两篇:html
本文是对Perl正则的一点扩展,主要内容是使用qr//
建立正则对象,以及一些其它的技巧。git
由于能够在正则模式中使用变量替换,因此咱们能够将正则中的一部分表达式事先保存在变量中。例如:正则表达式
$str="hello worlds gaoxiaofang"; $pattern="w.*d"; $str =~ /$pattern/; print "$&\n";
可是,这样缺陷很大,在保存正则表达式的变量中存放的特殊字符要防止有特殊意义。例如,当使用m//
的方式作匹配分隔符时,不能在变量中保存/
,除非转义。shell
perl提供了qr/pattern/
的功能,它把pattern部分构建成一个正则表达式对象,而后就能够:express
其中:数组
qr//
的定界符斜线能够替换为其它符号,例如对称的括号类qr() qr{} qr<> qr[]
,一致的符号类qr%% qr## qr!! qr$$ qr"" qr''
等。qr'pattern'
),它会将pattern部分使用单引号的方式去解析,例如变量$var
没法替换,而是表示4个字符。可是正则表达式的元字符仍然起做用,例如$
仍然表示行尾。$str="hello worlds gaoxiaofang"; # 直接做为正则表达式 $str =~ qr/w.*d/; print "$&\n"; # 保存为变量,再做为正则表达式 $pattern=qr/w.*d/; $str =~ $pattern; # (1) $str =~ /$pattern/; # (2) print "$&\n"; # 保存为变量,做为正则表达式的一部分 $pattern=qr/w.*d/; $str =~ /hel.* $pattern/; print "$&\n";
还容许为这个正则对象设置修饰符,好比忽略大小写的匹配修饰符为i,这样在真正匹配的时候,就只有这一部分正则对象会忽略大小写,其他部分仍然区分大小写。dom
$str="HELLO wORLDs gaoxiaofang"; $pattern=qr/w.*d/i; # 忽略大小写 $str =~ /HEL.* $pattern/; # 匹配成功,$pattern部分忽略大小写 $str =~ /hel.* $pattern/; # 匹配失败 $str =~ /hel.* $pattern/i; # 匹配成功,全部都忽略大小写
输出qr构建的正则引用,看看是怎样的结构:ide
$patt1=qr/w.*d/; print "$patt1\n"; $patt2=qr/w.*d/i; # 加上修饰符i print "$patt2\n"; $patt3=qr/w.*d/img; # 加上修饰符img print "$patt3\n";
上面的print将输出以下结果:工具
(?^:w.*d) (?^i:w.*d) (?^mi:w.*d)
qr的做用实际上就是在咱们给定的正则pattern基础上加上(?^:)
并带上一些修饰符,获得的结果老是(?^FLAGS:pattern)
。post
可是上面patt3的修饰符g不见了。先能够看看(?^:)
的做用:非捕获分组,并重置修饰符。重置为哪些修饰符?对于(?^FLAGS:)
来讲,只有这些修饰符"alupimsx"是可用的,即(?^alupimsx:)
:
因此上面的g会被丢弃,甚至在进一步操做这个正则引用时,会报错。
既然qr给pattern部分加上了(?^:)
,那么当它们插入到其它正则中的时候,就能保证这一段是独立的,不受全局修饰符影响的模式。
$patt1=qr/w.*d/im; $patt2=qr/hel.*d $patt1/i; print "$patt2\n"; # 输出:(?^i:hel.*d (?^mi:w.*d))
既然qr//
建立的正则对象引用是一个标量,那么标量能够出现的地方,正则引用就能够出现。例如,放进hash结构,数组结构。
例如,放进数组中造成一个正则表达式列表,而后给定一个待匹配目标,依次用列表中的这些模式去匹配。
use v5.10.1; my @patterns = ( qr/(?:Willie )?Gilligan/, qr/Mary Ann/, qr/Ginger/, qr/(?:The )?Professor/, qr/Skipper/, qr/Mrs?. Howell/, ); my $name = 'Ginger'; foreach my $pattern ( @patterns ) { if( $name =~ /$pattern/ ) { say "Match!"; print "$pattern"; last; } }
还能够将这些正则引用放进hash中,为每一个pattern都使用key来标识一下,例如pattern1是用来匹配什么的:
use v5.10.1; my %patterns = ( Gilligan => qr/(?:Willie )?Gilligan/, 'Mary Ann' => qr/Mary Ann/, Ginger => qr/Ginger/, Professor => qr/(?:The )?Professor/, Skipper => qr/Skipper/, 'A Howell' => qr/Mrs?. Howell/, ); my $name = 'Ginger'; my( $match ) = grep { $name =~ $patterns{$_} } keys %patterns; say "Matched $match" if $match;
上面将grep语句的结果赋值给了一个标量,因此若是有多个Pattern能匹配$name
,屡次执行,$match
的值将可能会不同。
有了qr,就能够将正则表达式细化成一小片一小片,而后组合起来。例如:
my $howells = qr/Thurston|Mrs/; my $tagalongs = qr/Ginger|Mary Ann/; my $passengers = qr/$howells|$tagalongs/; my $crew = qr/Gilligan|Skipper/; my $everyone = qr/$crew|$passengers/;
就像RFC 1738中对URL各个部分的解剖,若是转换成Perl正则,大概是这样的(了解便可):
# 可复用的基本符号类 my $alpha = qr/[a-z]/; my $digit = qr/\d/; my $alphadigit = qr/(?i:$alpha|$digit)/; my $safe = qr/[\$_.+-]/; my $extra = qr/[!*'\(\),]/; my $national = qr/[{}|\\^~\[\]`]/; my $reserved = qr|[;/?:@&=]|; my $hex = qr/(?i:$digit|[A-F])/; my $escape = qr/%$hex$hex/; my $unreserved = qr/$alpha|$digit|$safe|$extra/; my $uchar = qr/$unreserved|$escape/; my $xchar = qr/$unreserved|$reserved|$escape/; my $ucharplus = qr/(?:$uchar|[;?&=])*/; my $digits = qr/(?:$digit){1,}/; # 可复用的URL组成元素 my $hsegment = $ucharplus; my $hpath = qr|$hsegment(?:/$hsegment)*|; my $search = $ucharplus; my $scheme = qr|(?i:https?://)|; my $port = qr/$digits/; my $password = $ucharplus; my $user = $ucharplus; my $toplevel = qr/$alpha|$alpha(?:$alphadigit|-)*$alphadigit/; my $domainlabel = qr/$alphadigit|$alphadigit(?:$alphadigit|-)*$alphadigit/x; my $hostname = qr/(?:$domainlabel\.)*$toplevel/; my $hostnumber = qr/$digits\.$digits\.$digits\.$digits/; my $host = qr/$hostname|$hostnumber/; my $hostport = qr/$host(?::$port)?/; my $login = qr/(?:$user(?::$password)\@)?/; my $urlpath = qr/(?:(?:$xchar)*)/;
而后咱们就能够用上面看上去无比复杂的正则表达式去匹配一个路径是不是合格的http url:
use v5.10.1; my $httpurl = qr|$scheme$hostport(?:/$hpath(?:\?$search)?)?|; while( <> ) { say if /$httpurl/; }
上面构建的正则太复杂了,不少经常使用的正则表达式别人已经造好了轮子,咱们直接拿来用就好了。例如,Regexp::Common
模块,提供了不少种已经构建好的正则表达式。
首先安装这个模块:
sudo cpan -i Regexp::Common
如下是CPAN上提供的Regexp::Common
已造好的轮子,可参考:https://metacpan.org/release/Regexp-Common
Regexp::Common - Provide commonly requested regular expressions Regexp::Common::CC - provide patterns for credit card numbers. Regexp::Common::SEN - provide regexes for Social-Economical Numbers. Regexp::Common::URI - provide patterns for URIs. Regexp::Common::URI::RFC1035 - Definitions from RFC1035; Regexp::Common::URI::RFC1738 - Definitions from RFC1738; Regexp::Common::URI::RFC1808 - Definitions from RFC1808; Regexp::Common::URI::RFC2384 - Definitions from RFC2384; Regexp::Common::URI::RFC2396 - Definitions from RFC2396; Regexp::Common::URI::RFC2806 - Definitions from RFC2806; Regexp::Common::URI::fax - Returns a pattern for fax URIs. Regexp::Common::URI::file - Returns a pattern for file URIs. Regexp::Common::URI::ftp - Returns a pattern for FTP URIs. Regexp::Common::URI::gopher - Returns a pattern for gopher URIs. Regexp::Common::URI::http - Returns a pattern for HTTP URIs. Regexp::Common::URI::news - Returns a pattern for file URIs. Regexp::Common::URI::pop - Returns a pattern for POP URIs. Regexp::Common::URI::prospero - Returns a pattern for prospero URIs. Regexp::Common::URI::tel - Returns a pattern for telephone URIs. Regexp::Common::URI::telnet - Returns a pattern for telnet URIs. Regexp::Common::URI::tv - Returns a pattern for tv URIs. Regexp::Common::URI::wais - Returns a pattern for WAIS URIs. Regexp::Common::_support - Support functions for Regexp::Common. Regexp::Common::balanced - provide regexes for strings with balanced parenthesized delimiters or arbitrary delimiters. Regexp::Common::comment - provide regexes for comments. Regexp::Common::delimited - provides a regex for delimited strings Regexp::Common::lingua - provide regexes for language related stuff. Regexp::Common::list - provide regexes for lists Regexp::Common::net - provide regexes for IPv4, IPv6, and MAC addresses. Regexp::Common::number - provide regexes for numbers Regexp::Common::profanity - provide regexes for profanity Regexp::Common::whitespace - provides a regex for leading or trailing whitescape Regexp::Common::zip - provide regexes for postal codes.
这些正则表达式是经过hash进行嵌套的,hash的名称为%RE
。例如模块Regexp::Common::URI::http
,它提供的是HTTP URI的正则表达式,它嵌套了两层,第一层的key为URI,这个key对应的值是第二层hash,第二层hash的key为HTTP,因而能够经过$RE{URI}{HTTP}
的方式获取这个正则。
例如,匹配一个http url是否合理:
use Regexp::Common qw(URI); while( <> ) { print if /$RE{URI}{HTTP}/; }
在学习shell脚本的时候,常常有人写匹配IPV4的正则表达式,如今咱们可用直接从Regexp::Common::net
中获取:
use Regexp::Common qw(net); $ipv4=$RE{net}{IPv4}; print $ipv4;
如下是结果:
(?:(?:25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})[.](?:25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})[.](?:25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})[.](?:25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2}))
只是须要注意的是,在真正匹配的时候应该将获得的引用锚定起来,不然对318.99.183.11进行匹配的时候也会返回true,由于18.99.183.11是符合匹配结果的。因此,对先后都加上锚定,例如:
$ipv4 =~ /^$RE{net}{IPv4}$/;
将上面的ipv4正则改造一下(去掉非捕获分组的功能),让它适用于shell工具中广泛支持的扩展正则:
(25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})(\.(25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})){3}
默认状况下,Regexp::Common
的各个模块是没有开启捕获功能的。若是要使用$1
、$N
这种引用,须要使用{-keep}
选项,至于每一个分组捕获的是什么内容,须要参考帮助文档的说明。
例如:
use Regexp::Common qw(number); while( <> ) { say $1 if /$RE{num}{int}{ -base => 16 }{-keep}/; }