不久前出去面试了一下,被问到了一个问题:html
正则表达式 (?=a) 表示什么意思?面试
嗯,我花了几秒钟从脑子中检索答案,而后发现对于正则表达式方面的知识有许多地方记不清了!正则表达式
so,个人回答是:bash
我只知道 ? 号是最少匹配前面一次的意思,加个 = 号就不太清楚了,是最少匹配一次 = 号后面的值的吗?spa
面了三轮后,告知我待定!翻译
对于面试,我也算是身经百战了,待定的意思我明白,意思就是工做的内容能胜任,但我还要看看后面来面试的是否是有比你更好的。code
获得这个结果后,我本身想了一下,是否是我面试中关于这个正则的回答没回答好!cdn
因而,为了之后出去面试,从一个待定人士变为非你不可,我在本身研究加上请教一些网上朋友后,对于正则表达式有了些许体会。htm
写篇文章总结下。blog
(?=a)非获取匹配,正向确定预查,在任何匹配pattern的字符串开始处匹配查找字符串,该匹配不须要获取供之后使用。
还有四个和这个相近的:
(?!a)非获取匹配,正向否认预查,在任何不匹配pattern的字符串开始处匹配查找字符串,该匹配不须要获取供之后使用。
(?:a)非获取匹配,匹配pattern但不获取匹配结果,不进行存储供之后使用。这在使用或字符“(|)”来组合一个模式的各个部分是颇有用。
(?<=a)非获取匹配,反向确定预查,与正向确定预查相似,只是方向相反。
(?<!a)非获取匹配,反向否认预查,与正向否认预查相似,只是方向相反。
以上是官方的定义,比较难懂,我用本身的理解翻译了一下:
(?=a) 表示咱们须要匹配某样东西的前面。
(?!a) 表示咱们须要不匹配某样东西。
(?:a) 表示咱们须要匹配某样东西自己。
(?<=a) 表示咱们须要匹配某样东西的后面。
(?<!a) 表示咱们须要不匹配某样东西,与(?!a)方向相反。
个人翻译可能仍是不太容易理解,咱们用代码来解释一下!
console.log("我是中国人".replace(/我是(?=中国)/, "rr")) // 输出: 'rr中国人',匹配的是中国前面的'我是'
console.log("我是中国人".replace(/(?!中国)/, "rr")) // 输出:'rr我是中国人'
console.log("我是中国人".replace(/(?:中国)/, "rr")) // 输出:'我是rr人',匹配'中国'自己
console.log("我是中国人".replace(/(?<=中国)人/, "rr")) // 输出:'我是中国rr',匹配的是中国后面的'人'
console.log("我是中国人".replace(/(?<!中国)/, "rr")) // 输出:'rr我是中国人'
复制代码
Tips:(?!a)和(?<!a)都是输出的 'rr我是中国人',个人理解是,replace替换的时候匹配得是不包含中国的字符串,可是这个字符串又没有,那么js自动给加前面去了。
【分组】:
若是你想要在正则中重复匹配一个字符串,那么能够用一个 () 号给包起来,官方得说法是指定子表达式,也就是分组!
用代码解释就是:
\d{1,3} // 表示匹配1到3位的数字
(\d{1,3}\.){3} // 表示匹配三位数字加上一个英文句号,而且把这个分组(也就是这个匹配规则)重复三次
复制代码
理解了分组这个概念,再复杂的表达式也能够拆分红几个细的分组来实现。
【后向引用】:
用 () 号建立了一个分组后,匹配这个子表达式的文本能够在表达式或其它程序中做进一步的处理。每一个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。
若是你要重复搜索前面某个分组匹配的文本,能够用 \1 ,含义是,分组1匹配的文本,这种引用方式叫作后向引用。
用代码解释一下:
console.log("oh oh , oh my god!".replace(/\b(\w+)\b\s+\1\b/, "rr"))
// 输出:'rr , oh my god!'
// \b 匹配一个单词边界,一侧为单词的字符,另一侧为非单词字符
// \b(\w+)\b,匹配单词开始处和结束处之间的多于一个的字母或数字
// \s+ 匹配一个或者多个空格
// \1 后向引用,重复一次
// 若是正则表达式去掉 \1
console.log("oh oh , oh my god!".replace(/\b(\w+)\b\s+/, "rr"))
// 输出:'rroh , oh my god!'
复制代码
数字格式化
console.log("1234567890".replace(/\B(?=(?:\d{3})+(?!\d))/g,","))
// 输出:'1,234,567,890'
复制代码
去除ip地址
console.log("192.168.0.1".replace(/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/,"rr"))
// 输出:'rr'
复制代码
去除字符串中的中文,英文或者数字
console.log("aaa我是中国人111".replace(/[^u4E00-u9FA5]/g, "")) // 去除中文,输出:'aaa111'
console.log("aaa我是中国人111".replace(/(\d)\1+/g, "")) // 去除数字,输出:'aaa我是中国人'
console.log("aaa我是中国人111".replace(/([a-z])\1+/g, "")) // 去除英文,输出:'我是中国人111'
复制代码
如下省略一万个实际例子 ...
不研究不知道,一研究,发现正则表达式里面能够玩的东西太多了,篇幅和能力都有限,只能先到这里了,有什么错漏之处欢迎各位大大指出!