Jsoup代码解读之六-parser(下)

时间 2019-12-04

标签 jsoup 代码解读之六 parser 栏目 Java 繁體版

原文原文链接

最近生活上有点忙，女儿总是半夜不睡，精神状态也不是很好。工做上的事情也谈不上顺心，有不少想法可是没有几个被承认，有些事情也不是说代码写得好就行的。算了，仍是端正态度，毕竟资历尚浅，我仍是继续个人。javascript

读Jsoup源码并不是无聊，目的实际上是为了将webmagic作的更好一点，毕竟parser也是爬虫的重要组成部分之一。读了代码后，收获也很多，对HTML的知识也更进一步了。html

DOM树产生过程

这里单独将TreeBuilder部分抽出来叫作语法分析过程可能稍微不妥，其实就是根据Token生成DOM树的过程，不过我仍是沿用这个编译器里的称呼了。java

TreeBuilder一样是一个facade对象，真正进行语法解析的是如下一段代码：git

<!-- lang: java -->
protected void runParser() {
    while (true) {
        Token token = tokeniser.read();
        
        process(token);

        if (token.type == Token.TokenType.EOF)
            break;
    }
}

TreeBuilder有两个子类，HtmlTreeBuilder和XmlTreeBuilder。XmlTreeBuilder天然是构建XML树的类，实现颇为简单，基本上是维护一个栈，并根据不一样Token插入节点便可：github

<!-- lang: java -->
@Override
protected boolean process(Token token) {
    // start tag, end tag, doctype, comment, character, eof
    switch (token.type) {
        case StartTag:
            insert(token.asStartTag());
            break;
        case EndTag:
            popStackToClose(token.asEndTag());
            break;
        case Comment:
            insert(token.asComment());
            break;
        case Character:
            insert(token.asCharacter());
            break;
        case Doctype:
            insert(token.asDoctype());
            break;
        case EOF: // could put some normalisation here if desired
            break;
        default:
            Validate.fail("Unexpected token type: " + token.type);
    }
    return true;
}

insertNode的代码大体是这个样子(为了便于展现，对方法进行了一些整合)：web

<!-- lang: java -->
Element insert(Token.StartTag startTag) {
    Tag tag = Tag.valueOf(startTag.name());
    Element el = new Element(tag, baseUri, startTag.attributes);
    stack.getLast().appendChild(el);
    if (startTag.isSelfClosing()) {
        tokeniser.acknowledgeSelfClosingFlag();
        if (!tag.isKnownTag()) // unknown tag, remember this is self closing for output. see above.
            tag.setSelfClosing();
    } else {
        stack.add(el);
    }
    return el;
}

HTML解析状态机

相比XmlTreeBuilder，HtmlTreeBuilder则实现较为复杂，除了相似的栈结构之外，还用到了HtmlTreeBuilderState来构建了一个状态机来分析HTML。这是为何呢？不妨看看HtmlTreeBuilderState到底用到了哪些状态吧（在代码中中用标明状态）：app

<!-- lang: html -->
<!-- State: Initial -->
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!-- State: BeforeHtml -->
<html lang='zh-CN' xml:lang='zh-CN' xmlns='http://www.w3.org/1999/xhtml'>
<!-- State: BeforeHead -->
<head>
  <!-- State: InHead -->
  <script type="text/javascript">
  //<!-- State: Text -->
    function xx(){
    }
  </script>
  <noscript>
    <!-- State: InHeadNoscript -->
    Your browser does not support JavaScript!
  </noscript>
</head>
<!-- State: AfterHead -->
<body>
<!-- State: InBody -->
<textarea>
    <!-- State: Text -->
    xxx
</textarea>
<table>
    <!-- State: InTable -->
    <!-- State: InTableText -->
    xxx
    <tbody>
    <!-- State: InTableBody -->
    </tbody>
    <tr>
        <!-- State: InRow -->
        <td>
            <!-- State: InCell -->
        </td>
    </tr>    
</table>
</html>

这里能够看到，HTML标签是有嵌套要求的，例如<tr>,<td>须要组合<table>来使用。根据Jsoup的代码，能够发现，HtmlTreeBuilderState作了如下一些事情：ide

语法检查

例如tr没有嵌套在table标签内，则是一个语法错误。当InBody状态直接出现如下tag时，则出错。Jsoup里遇到这种错误，会发现这个Token的解析并记录错误，而后继续解析下面内容，并不会直接退出。ui
```

  InBody {
      boolean process(Token t, HtmlTreeBuilder tb) {
  		if (StringUtil.in(name,
  		"caption", "col", "colgroup", "frame", "head", "tbody", "td", "tfoot", "th", "thead", "tr")) {
  		tb.error(this);
  		return false;
  		}
      }
```

标签补全

例如head标签没有闭合，就写入了一些只有body内才容许出现的标签，则自动闭合</head>。HtmlTreeBuilderState有的方法anythingElse()就提供了自动补全标签，例如InHead状态的自动闭合代码以下：this

<!-- lang: java -->
      private boolean anythingElse(Token t, TreeBuilder tb) {
          tb.process(new Token.EndTag("head"));
          return tb.process(t);
      }

还有一种标签闭合方式，例以下面的代码：

<!-- lang: java -->
  private void closeCell(HtmlTreeBuilder tb) {
      if (tb.inTableScope("td"))
          tb.process(new Token.EndTag("td"));
      else
          tb.process(new Token.EndTag("th")); // only here if th or td in scope
  }

实例研究

缺乏标签时，会发生什么事？

好了，看了这么多parser的源码，不妨回到咱们的平常应用上来。咱们知道，在页面里多写一个两个未闭合的标签是很正常的事，那么它们会被怎么解析呢？

就拿<div>标签为例：

漏写了开始标签，只写告终束标签
```

 case EndTag:
 	if (StringUtil.in(name,"div","dl", "fieldset", "figcaption", "figure", "footer", "header", "pre", "section", "summary", "ul")) {                
 		if (!tb.inScope(name)) {
 		tb.error(this);
 		return false;
 		} 
 	}
```
恭喜你，这个</div>会被当作错误处理掉，因而你的页面就毫无疑问的乱掉了！固然，若是单纯多写了一个</div>，好像也不会有什么影响哦？(记得有人跟我讲过为了防止标签未闭合，而在页面底部多写了几个</div>的故事)
写了开始标签，漏写告终束标签

这个状况分析起来更复杂一点。若是是没法在内部嵌套内容的标签，那么在遇到不可接受的标签时，会进行闭合。而<div>标签能够包括大多数标签，这种状况下，其做用域会持续到HTML结束。

好了，parser系列算是分析结束了，其间学到很多HTML及状态机内容，可是离实际使用比较远。下面开始select部分，这部分可能对平常使用更有意义一点。