任何复杂的正则表达式都是由简单的子表达式组成的,要想写出复杂的正则来,一方面须要有化繁为简的功底,另一方面,咱们须要从正则引擎的角度去思考问题。关于正则引擎的原理,推荐《Mastering Regular Expression》中文名叫《精通正则表达式》。挺不错的一本书。html
OK,先肯定咱们要解决的问题——从一段Html文本中找出特定id的标签的innerHTML。正则表达式
这里面最大的难点就是,Html标签是支持嵌套的,怎么可以找到指定标签相对应的闭合标签呢?spa
咱们能够这样想,先匹配最前面的起始标签,假设是div吧(<div),接着一旦遇到嵌套div,就“压入堆栈”,后面若是遇到div闭合标签了,就“弹出堆栈”。若是遇到闭合标签的时候,堆栈里面已经没有东西了,那么匹配结束,此结束标签为正确的闭合标签。code
我之因此可以这样去思考,是由于我了解过正则的特性,我知道正则中的平衡组可以实现我刚才说的“堆栈”操做。因此,若是咱们要编写复杂正则表达式,须要对正则的一些高级特性至少有所了解,这样咱们思考问题才有个方向。htm
================================io
匹配任意闭合HTML标签的正则表达式:ast
<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>
若是只想匹配div标签,能够使用下面的正则表达式:class
<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>
是的,你能够把div修改为任意你想要匹配的HTML标签原理
若是想同时匹配多个HTML标签,能够使用下面的正则表达式:im
<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>
你还能够继续添加更多要匹配的标签
若是想匹配包含ID的标签,能够使用下面的正则表达式:
<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)
这个正则匹配任意id为footer的HTML标签
本文不彻底转载了http://www.imkevinyang.com/2009/07/使用正则表达式匹配嵌套html标签.html的内容