Python爬虫：scrapy利用html5lib解析不规范的html文本

时间 2020-01-15

标签 python 爬虫 scrapy 利用 html5lib html lib 解析不规范文本栏目 Python 繁體版

原文原文链接

问题当爬取表格(table) 的内容时，发现用 xpath helper 获取正常，程序却解析不到css 在chrome、火狐测试都有这个状况。出现这种缘由是由于浏览器会对html文本进行必定的规范化 scrapy 使用的解析器是 lxml ，下面使用lxml解析，只是函数表达不同，xpath和css选择器的语法同样html 安装解析器html5 pip install beautifulsou

>>阅读原文<<