Perl正则表达式引用

时间 2019-11-06

标签 perl 正则表达式引用栏目 Perl 繁體版

原文原文链接

正则表达式两篇：html

本文是对Perl正则的一点扩展，主要内容是使用qr//建立正则对象，以及一些其它的技巧。git

qr//建立正则对象

由于能够在正则模式中使用变量替换，因此咱们能够将正则中的一部分表达式事先保存在变量中。例如：正则表达式

$str="hello worlds gaoxiaofang";
$pattern="w.*d";
$str =~ /$pattern/;
print "$&\n";

可是，这样缺陷很大，在保存正则表达式的变量中存放的特殊字符要防止有特殊意义。例如，当使用m//的方式作匹配分隔符时，不能在变量中保存/，除非转义。shell

perl提供了qr/pattern/的功能，它把pattern部分构建成一个正则表达式对象，而后就能够：express

在正则表达式中直接引用这个对象
能够将这个对象保存到变量中，经过引用变量的方式来引用这个已保存好的正则对象
将引用变量插入到其它模式中构建更复杂的正则表达式

其中：数组

qr//的定界符斜线能够替换为其它符号，例如对称的括号类qr() qr{} qr<> qr[]，一致的符号类qr%% qr## qr!! qr$$ qr"" qr''等。
可是使用单引号做为定界符时比较特殊(即qr'pattern')，它会将pattern部分使用单引号的方式去解析，例如变量$var没法替换，而是表示4个字符。可是正则表达式的元字符仍然起做用，例如$仍然表示行尾。

$str="hello worlds gaoxiaofang";

# 直接做为正则表达式
$str =~ qr/w.*d/;
print "$&\n";

# 保存为变量，再做为正则表达式
$pattern=qr/w.*d/;
$str =~ $pattern;    # (1)
$str =~ /$pattern/;  # (2)
print "$&\n";

# 保存为变量，做为正则表达式的一部分
$pattern=qr/w.*d/;
$str =~ /hel.* $pattern/;
print "$&\n";

还容许为这个正则对象设置修饰符，好比忽略大小写的匹配修饰符为i，这样在真正匹配的时候，就只有这一部分正则对象会忽略大小写，其他部分仍然区分大小写。dom

$str="HELLO wORLDs gaoxiaofang";

$pattern=qr/w.*d/i;         # 忽略大小写

$str =~ /HEL.* $pattern/;   # 匹配成功，$pattern部分忽略大小写
$str =~ /hel.* $pattern/;   # 匹配失败
$str =~ /hel.* $pattern/i;  # 匹配成功，全部都忽略大小写

qr如何构建正则对象

输出qr构建的正则引用，看看是怎样的结构：ide

$patt1=qr/w.*d/;
print "$patt1\n";

$patt2=qr/w.*d/i;    # 加上修饰符i
print "$patt2\n";

$patt3=qr/w.*d/img;  # 加上修饰符img
print "$patt3\n";

上面的print将输出以下结果：工具

(?^:w.*d)
(?^i:w.*d)
(?^mi:w.*d)

qr的做用实际上就是在咱们给定的正则pattern基础上加上(?^:)并带上一些修饰符，获得的结果老是(?^FLAGS:pattern)。post

可是上面patt3的修饰符g不见了。先能够看看(?^:)的做用：非捕获分组，并重置修饰符。重置为哪些修饰符？对于(?^FLAGS:)来讲，只有这些修饰符"alupimsx"是可用的，即(?^alupimsx:)：

若是给定的修饰符不在这些修饰符内，则不被识别，有时候会报错
若是给定的修饰符属于这几个修饰符，那么没有给定的修饰符部分将采用默认值(不一样版本可能默认是否开启的值不一样)

因此上面的g会被丢弃，甚至在进一步操做这个正则引用时，会报错。

既然qr给pattern部分加上了(?^:)，那么当它们插入到其它正则中的时候，就能保证这一段是独立的，不受全局修饰符影响的模式。

$patt1=qr/w.*d/im;
$patt2=qr/hel.*d $patt1/i;
print "$patt2\n";     # 输出：(?^i:hel.*d (?^mi:w.*d))

正则引用做为标量的用法

既然qr//建立的正则对象引用是一个标量，那么标量能够出现的地方，正则引用就能够出现。例如，放进hash结构，数组结构。

例如，放进数组中造成一个正则表达式列表，而后给定一个待匹配目标，依次用列表中的这些模式去匹配。

use v5.10.1;
my @patterns = (
    qr/(?:Willie )?Gilligan/,
    qr/Mary Ann/,
    qr/Ginger/,
    qr/(?:The )?Professor/,
    qr/Skipper/,
    qr/Mrs?. Howell/,
);

my $name = 'Ginger';
foreach my $pattern ( @patterns ) {
    if( $name =~ /$pattern/ ) {
        say "Match!";
        print "$pattern";
        last;
    }
}

还能够将这些正则引用放进hash中，为每一个pattern都使用key来标识一下，例如pattern1是用来匹配什么的：

use v5.10.1;
my %patterns = (
    Gilligan => qr/(?:Willie )?Gilligan/,
    'Mary Ann' => qr/Mary Ann/,
    Ginger => qr/Ginger/,
    Professor => qr/(?:The )?Professor/,
    Skipper => qr/Skipper/,
    'A Howell' => qr/Mrs?. Howell/,
);
my $name = 'Ginger';
my( $match ) = grep { $name =~ $patterns{$_} } keys %patterns;
say "Matched $match" if $match;

上面将grep语句的结果赋值给了一个标量，因此若是有多个Pattern能匹配$name，屡次执行，$match的值将可能会不同。

构建复杂的正则表达式

有了qr，就能够将正则表达式细化成一小片一小片，而后组合起来。例如：

my $howells = qr/Thurston|Mrs/;
my $tagalongs = qr/Ginger|Mary Ann/;
my $passengers = qr/$howells|$tagalongs/;
my $crew = qr/Gilligan|Skipper/;
my $everyone = qr/$crew|$passengers/;

就像RFC 1738中对URL各个部分的解剖，若是转换成Perl正则，大概是这样的(了解便可)：

# 可复用的基本符号类
my $alpha = qr/[a-z]/;
my $digit = qr/\d/;
my $alphadigit = qr/(?i:$alpha|$digit)/;
my $safe = qr/[\$_.+-]/;
my $extra = qr/[!*'\(\),]/;
my $national = qr/[{}|\\^~\[\]`]/;
my $reserved = qr|[;/?:@&=]|;
my $hex = qr/(?i:$digit|[A-F])/;
my $escape = qr/%$hex$hex/;
my $unreserved = qr/$alpha|$digit|$safe|$extra/;
my $uchar = qr/$unreserved|$escape/;
my $xchar = qr/$unreserved|$reserved|$escape/;
my $ucharplus = qr/(?:$uchar|[;?&=])*/;
my $digits = qr/(?:$digit){1,}/;

# 可复用的URL组成元素
my $hsegment = $ucharplus;
my $hpath = qr|$hsegment(?:/$hsegment)*|;
my $search = $ucharplus;
my $scheme = qr|(?i:https?://)|;
my $port = qr/$digits/;
my $password = $ucharplus;
my $user = $ucharplus;

my $toplevel = qr/$alpha|$alpha(?:$alphadigit|-)*$alphadigit/;
my $domainlabel = qr/$alphadigit|$alphadigit(?:$alphadigit|-)*$alphadigit/x;
my $hostname = qr/(?:$domainlabel\.)*$toplevel/;
my $hostnumber = qr/$digits\.$digits\.$digits\.$digits/;
my $host = qr/$hostname|$hostnumber/;
my $hostport = qr/$host(?::$port)?/;
my $login = qr/(?:$user(?::$password)\@)?/;

my $urlpath = qr/(?:(?:$xchar)*)/;

而后咱们就能够用上面看上去无比复杂的正则表达式去匹配一个路径是不是合格的http url：

use v5.10.1;
my $httpurl = qr|$scheme$hostport(?:/$hpath(?:\?$search)?)?|;
while( <> ) {
    say if /$httpurl/;
}

正则表达式模块

上面构建的正则太复杂了，不少经常使用的正则表达式别人已经造好了轮子，咱们直接拿来用就好了。例如，Regexp::Common模块，提供了不少种已经构建好的正则表达式。

首先安装这个模块：

sudo cpan -i Regexp::Common

如下是CPAN上提供的Regexp::Common已造好的轮子，可参考：https://metacpan.org/release/Regexp-Common

Regexp::Common - Provide commonly requested regular expressions
Regexp::Common::CC - provide patterns for credit card numbers.
Regexp::Common::SEN - provide regexes for Social-Economical Numbers.
Regexp::Common::URI - provide patterns for URIs.
Regexp::Common::URI::RFC1035 - Definitions from RFC1035;
Regexp::Common::URI::RFC1738 - Definitions from RFC1738;
Regexp::Common::URI::RFC1808 - Definitions from RFC1808;
Regexp::Common::URI::RFC2384 - Definitions from RFC2384;
Regexp::Common::URI::RFC2396 - Definitions from RFC2396;
Regexp::Common::URI::RFC2806 - Definitions from RFC2806;
Regexp::Common::URI::fax - Returns a pattern for fax URIs.
Regexp::Common::URI::file - Returns a pattern for file URIs.
Regexp::Common::URI::ftp - Returns a pattern for FTP URIs.
Regexp::Common::URI::gopher - Returns a pattern for gopher URIs.
Regexp::Common::URI::http - Returns a pattern for HTTP URIs.
Regexp::Common::URI::news - Returns a pattern for file URIs.
Regexp::Common::URI::pop - Returns a pattern for POP URIs.
Regexp::Common::URI::prospero - Returns a pattern for prospero URIs.
Regexp::Common::URI::tel - Returns a pattern for telephone URIs.
Regexp::Common::URI::telnet - Returns a pattern for telnet URIs.
Regexp::Common::URI::tv - Returns a pattern for tv URIs.
Regexp::Common::URI::wais - Returns a pattern for WAIS URIs.
Regexp::Common::_support - Support functions for Regexp::Common.
Regexp::Common::balanced - provide regexes for strings with balanced parenthesized delimiters or arbitrary delimiters.
Regexp::Common::comment - provide regexes for comments.
Regexp::Common::delimited - provides a regex for delimited strings
Regexp::Common::lingua - provide regexes for language related stuff.
Regexp::Common::list - provide regexes for lists
Regexp::Common::net - provide regexes for IPv4, IPv6, and MAC addresses.
Regexp::Common::number - provide regexes for numbers
Regexp::Common::profanity - provide regexes for profanity
Regexp::Common::whitespace - provides a regex for leading or trailing whitescape
Regexp::Common::zip - provide regexes for postal codes.

这些正则表达式是经过hash进行嵌套的，hash的名称为%RE。例如模块Regexp::Common::URI::http，它提供的是HTTP URI的正则表达式，它嵌套了两层，第一层的key为URI，这个key对应的值是第二层hash，第二层hash的key为HTTP，因而能够经过$RE{URI}{HTTP}的方式获取这个正则。

例如，匹配一个http url是否合理：

use Regexp::Common qw(URI);
while( <> ) {
    print if /$RE{URI}{HTTP}/;
}

在学习shell脚本的时候，常常有人写匹配IPV4的正则表达式，如今咱们可用直接从Regexp::Common::net中获取：

use Regexp::Common qw(net);
$ipv4=$RE{net}{IPv4};
print $ipv4;

如下是结果：

(?:(?:25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})[.](?:25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})[.](?:25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})[.](?:25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2}))

只是须要注意的是，在真正匹配的时候应该将获得的引用锚定起来，不然对318.99.183.11进行匹配的时候也会返回true，由于18.99.183.11是符合匹配结果的。因此，对先后都加上锚定，例如：

$ipv4 =~ /^$RE{net}{IPv4}$/;

将上面的ipv4正则改造一下(去掉非捕获分组的功能)，让它适用于shell工具中广泛支持的扩展正则：

(25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})(\.(25[0-5]|2[0-4][0-9]|[0-1]?[0-9]{1,2})){3}

默认状况下，Regexp::Common的各个模块是没有开启捕获功能的。若是要使用$1、$N这种引用，须要使用{-keep}选项，至于每一个分组捕获的是什么内容，须要参考帮助文档的说明。

例如：

use Regexp::Common qw(number);
while( <> ) {
    say $1 if /$RE{num}{int}{ -base => 16 }{-keep}/;
}