JavaScript正则表达式入门

时间 2019-12-27

原文原文链接

　　工做中，正则表达式用的可能不是不少，通常使用的时候网上都有现成的实例，不多缺少比较全面的理解。本文主要以匹配HTML标签为例，简述下正则表达式经常使用的功能点。匹配HTML片断以下：正则表达式

let str = `
    <div id="app">
      <div>21</div> 
      <h1>
        <span>hello</span>
        <span>smile</span>
      </h1>
    <button>按钮</button></div>
`;

　　正则匹配本文查看结果主要用String.match(RegExp)方法，经常使用的正则匹配方法为：RegExp.test(String),RegExp.exec(String)数组

　　一、正则表达式的声明app

　　　　正则表达式的声明方式和普通变量的声明方式相似，通常状况下有两种，字面量和正则构造方法RegExp。以匹配span标签为例，匹配单个span标签的正则以下：测试

// 字面量方式
let normalPattern = /span/
// 调用正则构造方法
let pattern = new RegExp('span')

　　2. 修饰符spa

　　　　上述的正则，在匹配测试文本是，输出的结果是一个数组，只有一个元素span,若是我想匹配多个呢，这里就要引入正则修饰符的概念了，经常使用的就是 i 和 g。code

　　　　　　i的含义是忽略大小写，好比用/span/只能去匹配span字符串，SPAN匹配不了，若是想匹配SPAN,就要加上i修饰符orm

　　　　　　g的含义是global，全局查找，正则默认只匹配第一个符合条件的值，若是要全局匹配，就要加上g修饰符。blog

　　　　具体写法以下：ip

// 字面量方式
let normalPattern = /span/ig
// 调用正则构造方法
let pattern = new RegExp('span', 'ig')

　　3.字符类别字符串

　　　　以上匹配的文本都很是的基础，假如我想匹配全部的HTML标签，该怎么写呢？HTML标签不少，无法一个个所有罗列出来，咱们可使用字符类别，进行快速的匹配。参考列表以下：

　　字符类别，在某种程度上来讲，能够理解为一个字符集，如上述列表所示，\d是数字0-9的集合，若是咱们要匹配一段文本中全部的数字，能够直接声明以下正则：

let numberPattern = /\d/g

假如我要匹配全部的HTML标签呢？在匹配一个文本以前，咱们须要先分析下HTML标签规律，首先，HTML标签和通常的XML标签，都是以尖括号<大头，以尖括号>结尾，其次，中间只能是英文字母或者数字，最后，数字或字母可能出现一次或者屡次。写正则的第一要素是先概括总结，总结出规律才能去分析正则的写法。正则表达式本质上也是一种规律的解释文本。从咱们总结的规律中，咱们能够按照以下写法：

let matchTags = /<\w+>/g

　　匹配结果以下：

[ '<div>', '<h1>', '<span>', '<span>', '<button>' ]

　　\w表明数字或者字母，+表明匹配一次或者屡次，g表明全局匹配。咱们在匹配文本的时候，一种规律有时候不可能只用一次，正则表达式提供了丰富的数量词语法，可以知足咱们绝大多数要求，下面的章节会有介绍。

　　咱们看到，咱们匹配的HTML标签只是前面的标签，并无后面的闭合标签，咱们如何匹配闭合标签呢？闭合标签比普通的标签多了一个斜杠/，若是咱们单纯的写/，是不能够的，你们可能意识到，正则表达式的字面量写法是两个斜杠/包起来的，若是咱们直接写，会有冲突，这时候，咱们须要借助转义字符反斜杠\进行转义便可，一些与正则表达式冲突的，都须要用转义字符进行转义，好比特殊字符(),[]，还有是一些具备特殊意义的集合，\w,\d....

　　匹配闭合标签的正则以下：

let matchCloseTags = /<\/\w+>/g

　　匹配结果：

[ '</div>', '</span>', '</span>', '</h1>', '</button>', '</div>' ]

　　4.数量词

　　　　在字符类中，咱们用到了数量词+，表明匹配一次或屡次。正则表达式数量词远远不止这些，具体列表以下所示：　　

　　举个例子，假如我要匹配HTML片断中的h标签，咱们都知道h标签的基本规则为只有一个字母和数字，从上述咱们能够得出，咱们能够用数量词{n}，正则表达式以下：

let matchH = /<h{1}\d{1}>/g

　　匹配结果：

[ '<h1>' ]

在这里，咱们要记住两个个数量词，x*?和x+?，这个是最小匹配原则。假如如今咱们要匹配第一个span闭合标签和文本，即hello，若是咱们按照正常思路去写，以开头，结尾，中间是任意字符，正则表达式实现以下所示：

let matchSpan = /<span>(\S|\s)+<\/span>/g

　　匹配结果可能和咱们预想的不大同样，实际上匹配结果只有一个，以下所示：

[ '<span>hello</span>\n        <span>smile</span>' ]

　　正则默认的会全文匹配，并不会按照最小匹配原则，即找到符合条件的文本就返回，他会最大程度的去匹配符合条件的文本。若是咱们要分别匹配两段span标签，咱们就须要用到最小匹配原则的数量词，具体以下：

let matchSpan = /<span>(\S|\s)*?<\/span>/g
let matchSpan2 = /<span>(\S|\s)+?<\/span>/g

　　文本匹配结果：

[ '<span>hello</span>', '<span>smile</span>' ]

　　5.集合

　　　　正则表达式中，集合使用也比较多，语法比较简单，全部须要匹配的文本依次放在中括号[]中，好比若是你想匹配abc三个字母，pattern=/[abc]/,若是不想匹配abc,那就是pattern=[^abc]，若是匹配数字，那就是/[0-9]/,-表明一个连续的集合，字母就是[a-zA-Z]

　　6.边界

　　　　边界最简单的用法，^表明匹配输入的开始，$表明匹配输入的结束。

　　7.分组

　　　　假如如今有这样一个需求，须要匹配span标签里的文本，而不须要span标签，此时可能会用到分组，从字面意思上来讲，分组就是把规则分类。分组的语法比较简单，就是小括号()。转换为正则的语法以下：

let matchSpanText = /(<span>)(\S+)+?(<\/span>)/
let result = str.match(matchSpanText)

　匹配结果以下图所示：

从上图能够看出，匹配结果数组result长度为4，第一部为匹配的结果，第二部分为(span)匹配的结果，第三部分为(\S+)匹配的结果，第四部分为()匹配的结果，若是咱们要拿纯文本，直接去arr[2]便可。咱们也能得出一个结论，所谓分组，其实就是普通的正则匹配加上分组条件的匹配集合。

　　8.断言

　　　　断言是个好东西，可以解决许多比较棘手的问题，好比上面的例子，我想拿两个标签中间的文本，采用分组去取，是能够实现，可是就看每次都要拿匹配结果的第三个数组，有点不爽，怎么办呢，断言能够帮你解决这个烦恼，匹配的结果直接是文本。断言的基本规则以下：

　　从基本规则中，咱们能够从字面上得出，断言能够设置一个文本先后的匹配规则，咱们能够将匹配标签中间的文本规则改造以下：

let matchSpanTextDescribe = /(?<=<span>)(\S+)+?(?=<\/span>)/g
let result = str.match(matchSpanTextDescribe)

　　匹配结果以下：

　　参考资料：https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Global_Objects/RegExp#boundaries