正则表达式定义了字符串的模式,他能够用来搜索、编辑或处理文本。并不只限于某一种语言,可是在每种语言中有细微的差异。java
一个字符串其实就是一个简单的正则表达式,例如 Hello World
正则表达式匹配 "Hello World"
字符串。正则表达式
.
(点号)也是一个正则表达式,它匹配任何一个字符如:"a"
或 "1"
。this
下表列出了一些正则表达式的实例及描述:code
正则表达式 | 描述 | 可匹配实例 |
---|---|---|
this is text |
匹配字符串 | "this is text" |
this\s+is\s+text |
注意字符串中的 \s+ 。匹配单词 "this" 后面的 \s+ 能够匹配多个空格,以后匹配 is 字符串,再以后 \s+ 匹配多个空格而后再跟上 text 字符串。 |
this is text |
^\d+(.\d+)? | ^ 定义了以什么开始,\d+ 匹配一个或多个数字;? 设置括号内的选项是可选的;\. 匹配 . |
"5" , "1.5" 和 "2.21" 。 |
Java 正则表达式和 Perl 的是最为类似的。对象
java.util.regex 包主要包括如下三个类:字符串
Pattern 类 pattern 对象是一个正则表达式的编译表示。Pattern 类没有公共构造方法。要建立一个 Pattern 对象,你必须首先调用其公共静态编译方法,它返回一个 Pattern 对象。该方法接受一个正则表达式做为它的第一个参数。it
Matcher 类 Matcher 对象是对输入字符串进行解释和匹配操做的引擎。与Pattern 类同样,Matcher 也没有公共构造方法。你须要调用 Pattern 对象的 matcher 方法来得到一个 Matcher 对象。io
PatternSyntaxException PatternSyntaxException 是一个非强制异常类,它表示一个正则表达式模式中的语法错误。编译
如下实例中使用了正则表达式 .*China.*
用于查找字符串中是否包了 China
子串table
@Test public void test01(){ String text = "China is a county with a long history."; String regex = ".*China.*"; boolean matches = Pattern.matches(regex, text); System.out.println("是否包含China:" + matches); // 是否包含China:true }
捕获组是把多个字符当一个单独单元进行处理的方法,它经过对括号内的字符分组来建立。
例如,正则表达式 (dog) 建立了单一分组,组里包含"d","o",和"g"。
捕获组是经过从左至右计算其开括号来编号。例如,在表达式((A)(B(C)
,有四个这样的组:
((A)(B(C))) (A) (B(C)) (C)
能够经过调用 matcher 对象的 groupCount 方法来查看表达式有多少个分组。groupCount 方法返回一个 int 值,表示matcher对象当前有多个捕获组。
还有一个特殊的组(group(0)),它老是表明整个表达式。该组不包括在 groupCount 的返回值中。也就是说,没有使用()的表达式,匹配出的结果,即使获得了全匹配,他的groupCount也为0。
@Test public void test02(){ String text = "Onmyoji is a round game of public test in 2016 summer."; String regex = "(\\D*)(\\d+)(.*)"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(text); if(matcher.find()){ int count = matcher.groupCount(); for (int i = 0; i <= count ; i++) { System.out.println("group " + i + ":" + matcher.group(i)); } }else{ System.out.println("Not matched."); } /** * group 0:Onmyoji is a round game of public test in 2016. * group 1:Onmyoji is a round game of public test in * group 2:2016 * group 3:summer. */ }
次数匹配操做符后面没跟
?
的话,则都为贪婪匹配。