最近生活上有点忙,女儿总是半夜不睡,精神状态也不是很好。工做上的事情也谈不上顺心,有不少想法可是没有几个被承认,有些事情也不是说代码写得好就行的。算了,仍是端正态度,毕竟资历尚浅,我仍是继续个人。javascript
读Jsoup源码并不是无聊,目的实际上是为了将webmagic作的更好一点,毕竟parser也是爬虫的重要组成部分之一。读了代码后,收获也很多,对HTML的知识也更进一步了。html
这里单独将TreeBuilder
部分抽出来叫作语法分析过程可能稍微不妥,其实就是根据Token生成DOM树的过程,不过我仍是沿用这个编译器里的称呼了。java
TreeBuilder
一样是一个facade对象,真正进行语法解析的是如下一段代码:git
<!-- lang: java --> protected void runParser() { while (true) { Token token = tokeniser.read(); process(token); if (token.type == Token.TokenType.EOF) break; } }
TreeBuilder
有两个子类,HtmlTreeBuilder
和XmlTreeBuilder
。XmlTreeBuilder
天然是构建XML树的类,实现颇为简单,基本上是维护一个栈,并根据不一样Token插入节点便可:github
<!-- lang: java --> @Override protected boolean process(Token token) { // start tag, end tag, doctype, comment, character, eof switch (token.type) { case StartTag: insert(token.asStartTag()); break; case EndTag: popStackToClose(token.asEndTag()); break; case Comment: insert(token.asComment()); break; case Character: insert(token.asCharacter()); break; case Doctype: insert(token.asDoctype()); break; case EOF: // could put some normalisation here if desired break; default: Validate.fail("Unexpected token type: " + token.type); } return true; }
insertNode
的代码大体是这个样子(为了便于展现,对方法进行了一些整合):web
<!-- lang: java --> Element insert(Token.StartTag startTag) { Tag tag = Tag.valueOf(startTag.name()); Element el = new Element(tag, baseUri, startTag.attributes); stack.getLast().appendChild(el); if (startTag.isSelfClosing()) { tokeniser.acknowledgeSelfClosingFlag(); if (!tag.isKnownTag()) // unknown tag, remember this is self closing for output. see above. tag.setSelfClosing(); } else { stack.add(el); } return el; }
相比XmlTreeBuilder
,HtmlTreeBuilder
则实现较为复杂,除了相似的栈结构之外,还用到了HtmlTreeBuilderState
来构建了一个状态机来分析HTML。这是为何呢?不妨看看HtmlTreeBuilderState
到底用到了哪些状态吧(在代码中中用<!-- State: -->标明状态):app
<!-- lang: html --> <!-- State: Initial --> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <!-- State: BeforeHtml --> <html lang='zh-CN' xml:lang='zh-CN' xmlns='http://www.w3.org/1999/xhtml'> <!-- State: BeforeHead --> <head> <!-- State: InHead --> <script type="text/javascript"> //<!-- State: Text --> function xx(){ } </script> <noscript> <!-- State: InHeadNoscript --> Your browser does not support JavaScript! </noscript> </head> <!-- State: AfterHead --> <body> <!-- State: InBody --> <textarea> <!-- State: Text --> xxx </textarea> <table> <!-- State: InTable --> <!-- State: InTableText --> xxx <tbody> <!-- State: InTableBody --> </tbody> <tr> <!-- State: InRow --> <td> <!-- State: InCell --> </td> </tr> </table> </html>
这里能够看到,HTML标签是有嵌套要求的,例如<tr>
,<td>
须要组合<table>
来使用。根据Jsoup的代码,能够发现,HtmlTreeBuilderState
作了如下一些事情:ide
例如tr
没有嵌套在table
标签内,则是一个语法错误。当InBody
状态直接出现如下tag时,则出错。Jsoup里遇到这种错误,会发现这个Token的解析并记录错误,而后继续解析下面内容,并不会直接退出。ui
<!-- lang: java --> InBody { boolean process(Token t, HtmlTreeBuilder tb) { if (StringUtil.in(name, "caption", "col", "colgroup", "frame", "head", "tbody", "td", "tfoot", "th", "thead", "tr")) { tb.error(this); return false; } }
例如head
标签没有闭合,就写入了一些只有body内才容许出现的标签,则自动闭合</head>
。HtmlTreeBuilderState
有的方法anythingElse()
就提供了自动补全标签,例如InHead
状态的自动闭合代码以下:this
<!-- lang: java --> private boolean anythingElse(Token t, TreeBuilder tb) { tb.process(new Token.EndTag("head")); return tb.process(t); }
还有一种标签闭合方式,例以下面的代码:
<!-- lang: java --> private void closeCell(HtmlTreeBuilder tb) { if (tb.inTableScope("td")) tb.process(new Token.EndTag("td")); else tb.process(new Token.EndTag("th")); // only here if th or td in scope }
好了,看了这么多parser的源码,不妨回到咱们的平常应用上来。咱们知道,在页面里多写一个两个未闭合的标签是很正常的事,那么它们会被怎么解析呢?
就拿<div>
标签为例:
漏写了开始标签,只写告终束标签
<!-- lang: java --> case EndTag: if (StringUtil.in(name,"div","dl", "fieldset", "figcaption", "figure", "footer", "header", "pre", "section", "summary", "ul")) { if (!tb.inScope(name)) { tb.error(this); return false; } }
恭喜你,这个</div>
会被当作错误处理掉,因而你的页面就毫无疑问的乱掉了!固然,若是单纯多写了一个</div>
,好像也不会有什么影响哦?(记得有人跟我讲过为了防止标签未闭合,而在页面底部多写了几个</div>
的故事)
写了开始标签,漏写告终束标签
这个状况分析起来更复杂一点。若是是没法在内部嵌套内容的标签,那么在遇到不可接受的标签时,会进行闭合。而<div>
标签能够包括大多数标签,这种状况下,其做用域会持续到HTML结束。
好了,parser系列算是分析结束了,其间学到很多HTML及状态机内容,可是离实际使用比较远。下面开始select部分,这部分可能对平常使用更有意义一点。
最后附上个人Jsoup系列博客及源码地址:http://github.com/code4craft/jsoup-learning