在使用正则表达式的场合,经常有这种需求,就是匹配一个不包含某个子串的子符串。好比说,我要从“eabcdfgh”获得"cd"以前的子串。有些人可能会写:正则表达式
([^cd]*)ide
这种写法是完全错误的,由于[]中的是集合,也就是说,[^cd]表示不等于c或者d,而不是cd。下面的程序中没有cd,但eab仍是被匹配出来了。spa
- String s = "([^cd]*)";
- Match m = Regex.Match("eabcfgh", s);
- MessageBox.Show(m.Value);//eab
- MessageBox.Show(m.Groups[1].Value);//eab
上面这种写法是错的比较离谱的,正常青年通常均可以免这种错误。在特殊状况下,正则表达式能够这么写,并且效率是比较高的。字符串
([/s/S]*cd)get
先说明下/s/S是表示匹配任何字符。所谓特殊状况,就是我知道这个字符串中必有cd的存在。假如,个人要求是匹配不包含cd的部分(为了描述方便,只匹配cd以前的部分),也就是说,当cd不存在时,应该把整个字符串都取出来。string
- String s = "((.(?!cd))*.)";
- //String s = "([/s/S]*cd)";
- Match m = Regex.Match("eabcdfgh", s);
- MessageBox.Show(m.Value);//eab
- MessageBox.Show(m.Groups[1].Value);//eab
这种写法终于符合要求了。不过值得一提的是,相较前一种而言,它的效率比较低。it
回顾一下相关的语法:class
(?:子表达式) 定义非捕获组。效率
- //定义非捕获组
- String s = "e(?:ab)(.*)";
- Match m = Regex.Match("eabcd", s);
- MessageBox.Show(m.Value);//eabcd
- MessageBox.Show(m.Groups[1].Value);//cd
ab是被匹配的,可是它所在的组没有被捕获,Group[1]是cd语法
(?=子表达式) 零宽度正预测先行断言。
- //零宽度正预测先行断言
- //String s = "b(cd|de)(.*)";
- String s = "b(?=cd|de)(.*)";
- Match m = Regex.Match("eabcdfg", s);
- MessageBox.Show(m.Value);
- MessageBox.Show(m.Groups[1].Value);//区别 cd cdfg
这种写法和注释掉的写法是有区别的,区别就是“零宽度”,这种写法会被捕获,也就是不占一个Group。
(?!子表达式) 零宽度负预测先行断言。
!表示非,就是不包含,一样是零宽度,不会被捕获。
(?<=子表达式) 零宽度正回顾后发断言。
例:(?<=19)\d{2}\b
“1851 1999 1950 1905 2003”中的“99”、“50”和“05”
(?<!子表达式) 零宽度负回顾后发断言。
例:(?<!19)\d{2}\b
“1851 1999 1950 1905 2003”中的“51”和“03”