Android正则表达式详解

时间 2019-12-05

原文原文链接

若是你曾经用过Perl或任何其余内建正则表达式支持的语言，你必定知道用正则表达式处理文本和匹配模式是多么简单。若是你不熟悉这个术语，那么“正则表达式”（Regular Expression）就是一个字符构成的串，它定义了一个用来搜索匹配字符串的模式。

许多语言，包括Perl、PHP、Python、JavaScript和JScript，都支持用正则表达式处理文本，一些文本编辑器用正则表达式实现高级“搜索-替换”功能。那么Java又怎样呢？本文写做时，一个包含了用正则表达式进行文本处理的Java规范需求（Specification Request）已经获得承认，你能够期待在JDK的下一版本中看到它。

然而，若是如今就须要使用正则表达式，又该怎么办呢？你能够从Apache.org下载源代码开放的Jakarta-ORO库。本文接下来的内容先简要地介绍正则表达式的入门知识，而后以Jakarta-ORO API为例介绍如何使用正则表达式。

1、正则表达式基础知识

咱们先从简单的开始。假设你要搜索一个包含字符“cat”的字符串，搜索用的正则表达式就是“cat”。若是搜索对大小写不敏感，单词“catalog”、“Catherine”、“sophisticated”均可以匹配。也就是说：

1.1 句点符号

假设你在玩英文拼字游戏，想要找出三个字母的单词，并且这些单词必须以“t”字母开头，以“n”字母结束。另外，假设有一本英文字典，你能够用正则表达式搜索它的所有内容。要构造出这个正则表达式，你可使用一个通配符——句点符号“.”。这样，完整的表达式就是“t.n”，它匹配“tan”、“ten”、“tin”和“ton”，还匹配“t#n”、“tpn”甚至“t n”，还有其余许多无心义的组合。这是由于句点符号匹配全部字符，包括空格、Tab字符甚至换行符：

1.2 方括号符号

为了解决句点符号匹配范围过于普遍这一问题，你能够在方括号（“[]”）里面指定看来有意义的字符。此时，只有方括号里面指定的字符才参与匹配。也就是说，正则表达式“t[aeio]n”只匹配“tan”、“Ten”、“tin”和“ton”。但“Toon”不匹配，由于在方括号以内你只能匹配单个字符：

1.3 “或”符号

若是除了上面匹配的全部单词以外，你还想要匹配“toon”，那么，你可使用“|”操做符。“|”操做符的基本意义就是“或”运算。要匹配“toon”，使用“t(a|e|i|o|oo)n”正则表达式。这里不能使用方扩号，由于方括号只容许匹配单个字符；这里必须使用圆括号“()”。圆括号还能够用来分组，具体请参见后面介绍。

1.4 表示匹配次数的符号

表一显示了表示匹配次数的符号，这些符号用来肯定紧靠该符号左边的符号出现的次数：

假设咱们要在文本文件中搜索美国的社会安全号码。这个号码的格式是999-99-9999。用来匹配它的正则表达式如图一所示。在正则表达式中，连字符（“-”）有着特殊的意义，它表示一个范围，好比从0到9。所以，匹配社会安全号码中的连字符号时，它的前面要加上一个转义字符“\”。

图一：匹配全部123-12-1234形式的社会安全号码html

假设进行搜索的时候，你但愿连字符号能够出现，也能够不出现——即，999-99-9999和999999999都属于正确的格式。这时，你能够在连字符号后面加上“？”数量限定符号，如图二所示：

图二：匹配全部123-12-1234和123121234形式的社会安全号码java

下面咱们再来看另一个例子。美国汽车牌照的一种格式是四个数字加上二个字母。它的正则表达式前面是数字部分“[0-9]{4}”，再加上字母部分“[A-Z]{2}”。图三显示了完整的正则表达式。

图三：匹配典型的美国汽车牌照号码，如8836KV程序员

1.5 “否”符号

“^”符号称为“否”符号。若是用在方括号内，“^”表示不想要匹配的字符。例如，图四的正则表达式匹配全部单词，但以“X”字母开头的单词除外。

图四：匹配全部单词，但“X”开头的除外正则表达式

1.6 圆括号和空白符号

假设要从格式为“June 26, 1951”的生日日期中提取出月份部分，用来匹配该日期的正则表达式能够如图五所示：

图五：匹配全部Moth DD,YYYY格式的日期缓存

新出现的“\s”符号是空白符号，匹配全部的空白字符，包括Tab字符。若是字符串正确匹配，接下来如何提取出月份部分呢？只需在月份周围加上一个圆括号建立一个组，而后用ORO API（本文后面详细讨论）提取出它的值。修改后的正则表达式如图六所示：

图六：匹配全部Month DD,YYYY格式的日期，定义月份值为第一个组安全

1.7 其它符号

为简便起见，你可使用一些为常见正则表达式建立的快捷符号。如表二所示：

表二：经常使用符号

例如，在前面社会安全号码的例子中，全部出现“[0-9]”的地方咱们均可以使用“\d”。修改后的正则表达式如图七所示：

图七：匹配全部123-12-1234格式的社会安全号码服务器

2、Jakarta-ORO库

有许多源代码开放的正则表达式库可供Java程序员使用，并且它们中的许多支持Perl 5兼容的正则表达式语法。我在这里选用的是Jakarta-ORO正则表达式库，它是最全面的正则表达式API之一，并且它与Perl 5正则表达式彻底兼容。另外，它也是优化得最好的API之一。

Jakarta-ORO库之前叫作OROMatcher，Daniel Savarese大方地把它赠送给了Jakarta Project。你能够按照本文最后参考资源的说明下载它。

我首先将简要介绍使用Jakarta-ORO库时你必须建立和访问的对象，而后介绍如何使用Jakarta-ORO API。

▲ PatternCompiler对象

首先，建立一个Perl5Compiler类的实例，并把它赋值给PatternCompiler接口对象。Perl5Compiler是PatternCompiler接口的一个实现，容许你把正则表达式编译成用来匹配的Pattern对象。

▲ Pattern对象

要把正则表达式编译成Pattern对象，调用compiler对象的compile()方法，并在调用参数中指定正则表达式。例如，你能够按照下面这种方式编译正则表达式“t[aeio]n”：

默认状况下，编译器建立一个大小写敏感的模式（pattern）。所以，上面代码编译获得的模式只匹配“tin”、“tan”、 “ten”和“ton”，但不匹配“Tin”和“taN”。要建立一个大小写不敏感的模式，你应该在调用编译器的时候指定一个额外的参数：

建立好Pattern对象以后，你就能够经过PatternMatcher类用该Pattern对象进行模式匹配。

▲ PatternMatcher对象

PatternMatcher对象根据Pattern对象和字符串进行匹配检查。你要实例化一个Perl5Matcher类并把结果赋值给PatternMatcher接口。Perl5Matcher类是PatternMatcher接口的一个实现，它根据Perl 5正则表达式语法进行模式匹配：

使用PatternMatcher对象，你能够用多个方法进行匹配操做，这些方法的第一个参数都是须要根据正则表达式进行匹配的字符串：

· boolean matches(String input, Pattern pattern)：当输入字符串和正则表达式要精确匹配时使用。换句话说，正则表达式必须完整地描述输入字符串。

· boolean matchesPrefix(String input, Pattern pattern)：当正则表达式匹配输入字符串起始部分时使用。

· boolean contains(String input, Pattern pattern)：当正则表达式要匹配输入字符串的一部分时使用（即，它必须是一个子串）。

另外，在上面三个方法调用中，你还能够用PatternMatcherInput对象做为参数替代String对象；这时，你能够从字符串中最后一次匹配的位置开始继续进行匹配。当字符串可能有多个子串匹配给定的正则表达式时，用PatternMatcherInput对象做为参数就颇有用了。用PatternMatcherInput对象做为参数替代String时，上述三个方法的语法以下：

· boolean matches(PatternMatcherInput input, Pattern pattern)

· boolean matchesPrefix(PatternMatcherInput input, Pattern pattern)

· boolean contains(PatternMatcherInput input, Pattern pattern)

3、应用实例

下面咱们来看看Jakarta-ORO库的一些应用实例。

3.1 日志文件处理

任务：分析一个Web服务器日志文件，肯定每个用户花在网站上的时间。在典型的BEA WebLogic日志文件中，日志记录的格式以下：

分析这个日志记录，能够发现，要从这个日志文件提取的内容有两项：IP地址和页面访问时间。你能够用分组符号（圆括号）从日志记录提取出IP地址和时间标记。

首先咱们来看看IP地址。IP地址有4个字节构成，每个字节的值在0到255之间，各个字节经过一个句点分隔。所以，IP地址中的每个字节有至少一个、最多三个数字。图八显示了为IP地址编写的正则表达式：

图八：匹配IP地址app

IP地址中的句点字符必须进行转义处理（前面加上“\”），由于IP地址中的句点具备它原本的含义，而不是采用正则表达式语法中的特殊含义。句点在正则表达式中的特殊含义本文前面已经介绍。

日志记录的时间部分由一对方括号包围。你能够按照以下思路提取出方括号里面的全部内容：首先搜索起始方括号字符（“[”），提取出全部不超过结束方括号字符（“]”）的内容，向前寻找直至找到结束方括号字符。图九显示了这部分的正则表达式。

图九：匹配至少一个字符，直至找到“]”编辑器

如今，把上述两个正则表达式加上分组符号（圆括号）后合并成单个表达式，这样就能够从日志记录提取出IP地址和时间。注意，为了匹配“- -”（但不提取它），正则表达式中间加入了“\s-\s-\s”。完整的正则表达式如图十所示。

图十：匹配IP地址和时间标记函数

如今正则表达式已经编写完毕，接下来能够编写使用正则表达式库的Java代码了。

为使用Jakarta-ORO库，首先建立正则表达式字符串和待分析的日志记录字符串：

这里使用的正则表达式与图十的正则表达式差很少彻底相同，但有一点例外：在Java中，你必须对每个向前的斜杠（“\”）进行转义处理。图十不是Java的表示形式，因此咱们要在每一个“\”前面加上一个“\”以避免出现编译错误。遗憾的是，转义处理过程很容易出现错误，因此应该当心谨慎。你能够首先输入未经转义处理的正则表达式，而后从左到右依次把每个“\”替换成“\\”。若是要复检，你能够试着把它输出到屏幕上。

初始化字符串以后，实例化PatternCompiler对象，用PatternCompiler编译正则表达式建立一个Pattern对象：

如今，建立PatternMatcher对象，调用PatternMatcher接口的contain()方法检查匹配状况：

接下来，利用PatternMatcher接口返回的MatchResult对象，输出匹配的组。因为logEntry字符串包含匹配的内容，你能够看到类以下面的输出：

3.2 HTML处理实例一

下面一个任务是分析HTML页面内FONT标记的全部属性。HTML页面内典型的FONT标记以下所示：

程序将按照以下形式，输出每个FONT标记的属性：

在这种状况下，我建议你使用两个正则表达式。第一个如图十一所示，它从字体标记提取出“"face="Arial, Serif" size="+2" color="red"”。

图十一：匹配FONT标记的全部属性

第二个正则表达式如图十二所示，它把各个属性分割成名字-值对。

图十二：匹配单个属性，并把它分割成名字-值对

分割结果为：

如今咱们来看看完成这个任务的Java代码。首先建立两个正则表达式字符串，用Perl5Compiler把它们编译成Pattern对象。编译正则表达式的时候，指定Perl5Compiler.CASE_INSENSITIVE_MASK选项，使得匹配操做不区分大小写。

接下来，建立一个执行匹配操做的Perl5Matcher对象。

假设有一个String类型的变量html，它表明了HTML文件中的一行内容。若是html字符串包含FONT标记，匹配器将返回true。此时，你能够用匹配器对象返回的MatchResult对象得到第一个组，它包含了FONT的全部属性：

接下来建立一个PatternMatcherInput对象。这个对象容许你从最后一次匹配的位置开始继续进行匹配操做，所以，它很适合于提取FONT标记内属性的名字-值对。建立PatternMatcherInput对象，以参数形式传入待匹配的字符串。而后，用匹配器实例提取出每个FONT的属性。这经过指定PatternMatcherInput对象（而不是字符串对象）为参数，反复地调用PatternMatcher对象的contains()方法完成。PatternMatcherInput对象之中的每一次迭代将把它内部的指针向前移动，下一次检测将从前一次匹配位置的后面开始。

本例的输出结果以下：

3.3 HTML处理实例二

下面咱们来看看另外一个处理HTML的例子。这一次，咱们假定Web服务器从widgets.acme.com移到了newserver.acme.com。如今你要修改一些页面中的连接：

执行这个搜索的正则表达式如图十三所示：

图十三：匹配修改前的连接

若是可以匹配这个正则表达式，你能够用下面的内容替换图十三的连接：

注意#字符的后面加上了$1。Perl正则表达式语法用$一、$2等表示已经匹配且提取出来的组。图十三的表达式把全部做为一个组匹配和提取出来的内容附加到连接的后面。

如今，返回Java。就象前面咱们所作的那样，你必须建立测试字符串，建立把正则表达式编译到Pattern对象所必需的对象，以及建立一个PatternMatcher对象：

接下来，用com.oroinc.text.regex包Util类的substitute()静态方法进行替换，输出结果字符串：

Util.substitute()方法的语法以下：

这个调用的前两个参数是之前建立的PatternMatcher和Pattern对象。第三个参数是一个Substiution对象，它决定了替换操做如何进行。本例使用的是Perl5Substitution对象，它可以进行Perl5风格的替换。第四个参数是想要进行替换操做的字符串，最后一个参数容许指定是否替换模式的全部匹配子串（Util.SUBSTITUTE_ALL），或只替换指定的次数。

【结束语】在这篇文章中，我为你介绍了正则表达式的强大功能。只要正确运用，正则表达式可以在字符串提取和文本修改中起到很大的做用。另外，我还介绍了如何在Java程序中经过Jakarta-ORO库利用正则表达式。至于最终采用老式的字符串处理方式（使用StringTokenizer，charAt，和substring），仍是采用正则表达式，这就有待你本身决定了。

Java正则表达式学习：
由于正则表达式是一个很庞杂的体系，此例仅举些入门的概念，更多的请参阅相关书籍及自行摸索。

// 反斜杠
/t 间隔 ('/u0009')
/n 换行 ('/u000A')
/r 回车 ('/u000D')
/d 数字等价于[0-9]
/D 非数字等价于[^0-9]
/s 空白符号 [/t/n/x0B/f/r]
/S 非空白符号 [^/t/n/x0B/f/r]
/w 单独字符 [a-zA-Z_0-9]
/W 非单独字符 [^a-zA-Z_0-9]
/f 换页符
/e Escape
/b 一个单词的边界
/B 一个非单词的边界
/G 前一个匹配的结束

^为限制开头
^java     条件限制为以Java为开头字符
$为限制结尾
java$     条件限制为以java为结尾字符
. 条件限制除/n之外任意一个单独字符
java..     条件限制为java后除换行外任意两个字符

加入特定限制条件「[]」
[a-z]     条件限制在小写a to z范围中一个字符
[A-Z]     条件限制在大写A to Z范围中一个字符
[a-zA-Z] 条件限制在小写a to z或大写A to Z范围中一个字符
[0-9]     条件限制在小写0 to 9范围中一个字符
[0-9a-z] 条件限制在小写0 to 9或a to z范围中一个字符
[0-9[a-z]] 条件限制在小写0 to 9或a to z范围中一个字符(交集)

[]中加入^后加再次限制条件「[^]」
[^a-z]     条件限制在非小写a to z范围中一个字符
[^A-Z]     条件限制在非大写A to Z范围中一个字符
[^a-zA-Z] 条件限制在非小写a to z或大写A to Z范围中一个字符
[^0-9]     条件限制在非小写0 to 9范围中一个字符
[^0-9a-z] 条件限制在非小写0 to 9或a to z范围中一个字符
[^0-9[a-z]] 条件限制在非小写0 to 9或a to z范围中一个字符(交集)

在限制条件为特定字符出现0次以上时，可使用「*」
J*     0个以上J
.*     0个以上任意字符
J.*D     J与D之间0个以上任意字符

在限制条件为特定字符出现1次以上时，可使用「+」
J+     1个以上J
.+     1个以上任意字符
J.+D     J与D之间1个以上任意字符

在限制条件为特定字符出现有0或1次以上时，可使用「?」
JA? J或者JA出现

限制为连续出现指定次数字符「{a}」
J{2}     JJ
J{3}     JJJ
文字a个以上，而且「{a,}」
J{3,}     JJJ,JJJJ,JJJJJ,???(3次以上J并存)
文字个以上，b个如下「{a,b}」
J{3,5}     JJJ或JJJJ或JJJJJ
二者取一「|」
J|A     J或A
Java|Hello     Java或Hello

「()」中规定一个组合类型
好比，我查询<a href=/"index.html/">index</a>中<a href></a>间的数据，可写做<a.*href=/".*/">(.+?)</a>

在使用Pattern.compile函数时，能够加入控制正则表达式的匹配行为的参数：
Pattern Pattern.compile(String regex, int flag)

flag的取值范围以下：
Pattern.CANON_EQ     当且仅当两个字符的"正规分解(canonical decomposition)"都彻底相同的状况下，才认定匹配。好比用了这个标志以后，表达式"a/u030A"会匹配"?"。默认状况下，不考虑"规范相等性(canonical equivalence)"。
Pattern.CASE_INSENSITIVE(?i)     默认状况下，大小写不明感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配，只要将UNICODE_CASE与这个标志合起来就好了。
Pattern.COMMENTS(?x)     在这种模式下，匹配时会忽略(正则表达式里的)空格字符(译者注：不是指表达式里的"//s"，而是指表达式里的空格，tab，回车之类)。注释从#开始，一直到这行结束。能够经过嵌入式的标志来启用unix行模式。
Pattern.DOTALL(?s)     在这种模式下，表达式'.'能够匹配任意字符，包括表示一行的结束符。默认状况下，表达式'.'不匹配行的结束符。
Pattern.MULTILINE
(?m)     在这种模式下，'^'和'$'分别匹配一行的开始和结束。此外，'^'仍然匹配字符串的开始，'$'也匹配字符串的结束。默认状况下，这两个表达式仅仅匹配字符串的开始和结束。
Pattern.UNICODE_CASE
(?u)     在这个模式下，若是你还启用了CASE_INSENSITIVE标志，那么它会对Unicode字符进行大小写不明感的匹配。默认状况下，大小写不敏感的匹配只适用于US-ASCII字符集。
Pattern.UNIX_LINES(?d)     在这个模式下，只有'/n'才被认做一行的停止，而且与'.'，'^'，以及'$'进行匹配。

view plaincopy to clipboardprint?
01.抛开空泛的概念，下面写出几个简单的Java正则用例：
02.
03.◆好比，在字符串包含验证时
04.
05.//查找以Java开头,任意结尾的字符串
06.Pattern pattern = Pattern.compile("^Java.*");
07.Matcher matcher = pattern.matcher("Java不是人");
08.boolean b= matcher.matches();
09.//当条件知足时，将返回true，不然返回false
10.System.out.println(b);
11.
12.
13.◆以多条件分割字符串时
14.Pattern pattern = Pattern.compile("[, |]+");
15.String[] strs = pattern.split("Java Hello World Java,Hello,,World|SUN");
16.for (int i=0;i<strs.length;i++) {
17.    System.out.println(strs[i]);
18.}
19.
20.◆文字替换（首次出现字符）
21.Pattern pattern = Pattern.compile("正则表达式");
22.Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World");
23.//替换第一个符合正则的数据
24.System.out.println(matcher.replaceFirst("Java"));
25.
26.◆文字替换（所有）
27.Pattern pattern = Pattern.compile("正则表达式");
28.Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World");
29.//替换第一个符合正则的数据
30.System.out.println(matcher.replaceAll("Java"));
31.
32.
33.◆文字替换（置换字符）
34.Pattern pattern = Pattern.compile("正则表达式");
35.Matcher matcher = pattern.matcher("正则表达式 Hello World,正则表达式 Hello World ");
36.StringBuffer sbr = new StringBuffer();
37.while (matcher.find()) {
38.    matcher.appendReplacement(sbr, "Java");
39.}
40.matcher.appendTail(sbr);
41.System.out.println(sbr.toString());
42.
43.◆验证是否为邮箱地址
44.
45.String str="ceponline@yahoo.com.cn";
46.Pattern pattern = Pattern.compile("[//w//.//-]+@([//w//-]+//.)+[//w//-]+",Pattern.CASE_INSENSITIVE);
47.Matcher matcher = pattern.matcher(str);
48.System.out.println(matcher.matches());
49.
50.◆去除html标记
51.Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);
52.Matcher matcher = pattern.matcher("<a href="/" mce_href="/""index.html/">主页</a>");
53.String string = matcher.replaceAll("");
54.System.out.println(string);
55.
56.◆查找html中对应条件字符串
57.Pattern pattern = Pattern.compile("href=/"(.+?)/"");
58.Matcher matcher = pattern.matcher("<a href="/" mce_href="/""index.html/">主页</a>");
59.if(matcher.find())
60.System.out.println(matcher.group(1));
61.}
62.
63.◆截取http://地址
64.//截取url
65.Pattern pattern = Pattern.compile("(http://|https://){1}[//w//.//-/:]+");
66.Matcher matcher = pattern.matcher("dsdsds<http://dsds//gfgffdfd>fdf");
67.StringBuffer buffer = new StringBuffer();
68.while(matcher.find()){
69.    buffer.append(matcher.group());
70.    buffer.append("/r/n");
71.System.out.println(buffer.toString());
72.}
73.
74.◆替换指定{}中文字
75.
76.String str = "Java目前的发展史是由{0}年-{1}年";
77.String[][] object={new String[]{"//{0//}","1995"},new String[]{"//{1//}","2007"}};    78.System.out.println(replace(str,object));    79. 80.public static String replace(final String sourceString,Object[] object) {    81.            String temp=sourceString;       82.            for(int i=0;i<object.length;i++){    83.                      String[] result=(String[])object[i];    84.               Pattern    pattern = Pattern.compile(result[0]);    85.               Matcher matcher = pattern.matcher(temp);    86.               temp=matcher.replaceAll(result[1]);    87.            }    88.            return temp;    89.}    90. 91. 92.◆以正则条件查询指定目录下文件    93. 94.//用于缓存文件列表    95.        private ArrayList files = new ArrayList();    96.        //用于承载文件路径    97.        private String _path;    98.        //用于承载未合并的正则公式    99.        private String _regexp;    100.           101.        class MyFileFilter implements FileFilter {    102. 103.            /**   104.               * 匹配文件名称   105.               */    106.            public boolean accept(File file) {    107.                try {    108.                  Pattern pattern = Pattern.compile(_regexp);    109.                  Matcher match = pattern.matcher(file.getName());                   110.                  return match.matches();    111.                } catch (Exception e) {    112.                  return true;    113.                }    114.            }    115.            }    116.           117.        /**   118.        * 解析输入流   119.        * @param inputs   120.        */    121.        FilesAnalyze (String path,String regexp){    122.            getFileName(path,regexp);    123.        }    124.           125.        /**   126.        * 分析文件名并加入files   127.        * @param input   128.        */    129.        private void getFileName(String path,String regexp) {    130.            //目录    131.              _path=path;    132.              _regexp=regexp;    133.            File directory = new File(_path);    134.            File[] filesFile = directory.listFiles(new MyFileFilter());    135.            if (filesFile == null) return;    136.            for (int j = 0; j < filesFile.length; j++) {    137.                files.add(filesFile[j]);    138.            }    139.            return;    140.            }    141.       142.        /**   143.         * 显示输出信息   144.         * @param out   145.         */    146.        public void print (PrintStream out) {    147.            Iterator elements = files.iterator();    148.            while (elements.hasNext()) {    149.                File file=(File) elements.next();    150.                    out.println(file.getPath());       151.            }    152.        }    153. 154.        public static void output(String path,String regexp) {    155. 156.            FilesAnalyze fileGroup1 = new FilesAnalyze(path,regexp);    157.            fileGroup1.print(System.out);    158.        }    159.       160.        public static void main (String[] args) {    161.            output("C://","[A-z|.]*");    162.        }