xpath 获取元素及爬虫实例

时间 2021-01-09

原文原文链接

主流爬虫方法分类： 1，selenium+Chrome/PhantomJS 2，Requests+正则表达式 3，Requests+ BeautifulSoup 4，Requests+分析ajax 5，Requests+xpath（lxml包）或CSS 今天要讲的第5种。原理：将有可能不合法的HTML 解析为统一格式。虽然Lxml可以正确解析属性两侧缺失的引号，并闭合标签，不过该模块没有额外添