爬虫从入门到放弃——抓取前端渲染的页面

抓取前端渲染的页面 随着AJAX技术不断的普及,以及如今AngularJS这种Single-page application框架的出现,如今js渲染出的页面愈来愈多。对于爬虫来讲,这种页面是比较讨厌的:仅仅提取HTML内容,每每没法拿到有效的信息。那么如何处理这种页面呢?总的来讲有两种作法:html 在抓取阶段,在爬虫中内置一个浏览器内核,执行js渲染页面后,再抓取。这方面对应的工具备Seleni
相关文章
相关标签/搜索