lxml 解析巨大深嵌套DOM树的问题

时间 2019-11-09

标签 lxml 解析巨大嵌套 dom 问题栏目 HTML 繁體版

原文原文链接

今天客户反映，咱们的微信爬虫，有一篇文章的信息不全：问题连接微信

仔细观察以后，咱们发现，这篇文章是由135微信编辑器生成的，正文内容的DOM树很是深，有几百层。编辑器

使用 lxml.etree.HTML(text).xp(xpath)进行解析的时候，若是DOM树过深，就解析会提早停止。ui

在build etree时，调用的是lxml.etree.XMLParser 类，而XMLParser接收 huge_tree=True的参数，容许解析巨大DOM树，而etree.HTML又接收自定义Parser，因此上述代码修改成：xml

lxml.etree.HTML(text, lxml.etree.XMLParser(huge_tree=True)).xp(xpath)以后，就能够顺利解析了。get

相关文章

相关标签/搜索

贪心解嵌套娃娃问题

Docker命令大全

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<