分布式网络爬虫实例——获取静态数据和动态数据

时间 2019-12-05

原文原文链接

前言刚刚介绍完基于PyHusky的分布式爬虫原理及实现，让咱们具有了设计分布式网络爬虫方便地调动计算资源来实现高效率的数据获取能力。能够说，有了前面的基础，已经可以解决互联网上的绝大部分网站的数据获取问题。下面我将以正常模式爬取某地产网站上相关的新房、二手房和租房信息；而后使用selenium来抓取动态数据来分别介绍两种类型网站的分布式网络爬虫的实现：html 实例因为前面已经设计好了实现分布

>>阅读原文<<