正则表达式-不包含某个字符串

时间 2021-01-30

标签正则表达式 ide spa 字符串 get string class 效率语法栏目正则表达式繁體版

原文原文链接

在使用正则表达式的场合，经常有这种需求，就是匹配一个不包含某个子串的子符串。好比说，我要从“eabcdfgh”获得"cd"以前的子串。有些人可能会写:正则表达式

([^cd]*)ide

这种写法是完全错误的，由于[]中的是集合，也就是说，[^cd]表示不等于c或者d,而不是cd。下面的程序中没有cd,但eab仍是被匹配出来了。spa

  
  
           
  
  
   
   
            
   
   String s = "([^cd]*)"; 
   
   
            
   
   Match m = Regex.Match("eabcfgh", s); 
   
   
            
   
   MessageBox.Show(m.Value);//eab 
   
   
            
   
   MessageBox.Show(m.Groups[1].Value);//eab

上面这种写法是错的比较离谱的，正常青年通常均可以免这种错误。在特殊状况下，正则表达式能够这么写，并且效率是比较高的。字符串

([/s/S]*cd)get

先说明下/s/S是表示匹配任何字符。所谓特殊状况，就是我知道这个字符串中必有cd的存在。假如，个人要求是匹配不包含cd的部分（为了描述方便，只匹配cd以前的部分），也就是说，当cd不存在时，应该把整个字符串都取出来。string

  
  
           
  
  
   
   
            
   
   String s = "((.(?!cd))*.)"; 
   
   
            
   
   //String s = "([/s/S]*cd)"; 
   
   
            
   
   Match m = Regex.Match("eabcdfgh", s); 
   
   
            
   
   MessageBox.Show(m.Value);//eab 
   
   
            
   
   MessageBox.Show(m.Groups[1].Value);//eab

这种写法终于符合要求了。不过值得一提的是，相较前一种而言，它的效率比较低。it

回顾一下相关的语法:class

(?:子表达式) 定义非捕获组。效率

  
  
           
  
  
   
   
            
   
   //定义非捕获组 
   
   
            
   
   String s = "e(?:ab)(.*)"; 
   
   
            
   
   Match m = Regex.Match("eabcd", s); 
   
   
            
   
   MessageBox.Show(m.Value);//eabcd 
   
   
            
   
   MessageBox.Show(m.Groups[1].Value);//cd

ab是被匹配的，可是它所在的组没有被捕获，Group[1]是cd语法

(?=子表达式) 零宽度正预测先行断言。

  
  
           
  
  
   
   
            
   
   //零宽度正预测先行断言 
   
   
            
   
   //String s = "b(cd|de)(.*)"; 
   
   
            
   
   String s = "b(?=cd|de)(.*)"; 
   
   
            
   
   Match m = Regex.Match("eabcdfg", s); 
   
   
            
   
   MessageBox.Show(m.Value); 
   
   
            
   
   MessageBox.Show(m.Groups[1].Value);//区别 cd  cdfg

这种写法和注释掉的写法是有区别的，区别就是“零宽度”，这种写法会被捕获，也就是不占一个Group。

(?!子表达式) 零宽度负预测先行断言。

！表示非，就是不包含，一样是零宽度，不会被捕获。

(?<=子表达式) 零宽度正回顾后发断言。

例:(?<=19)\d{2}\b

“1851 1999 1950 1905 2003”中的“99”、“50”和“05”

(?<!子表达式) 零宽度负回顾后发断言。

例:(?<!19)\d{2}\b

“1851 1999 1950 1905 2003”中的“51”和“03”

参考文章: http://msdn.microsoft.com/zh-cn/library/az24scfc.aspx