分布式爬虫设计

网上也有很多的分布式爬虫框架的解决方案,下面我就以自己工作的经验进行一些总结:   一,爬虫的技术要点     要向批量抓取某一个大站,你需要自己搭建一套爬虫框架。要考虑封IP问题,考虑图片验证码识别问题,考虑数据处理问题等。     封IP--常见的解决方案基本上就是告诉你抓免费代理,或者购买代理,我这里想到的是如果你有条件有多个路由器,完全可以自己实现一套定时拨号程序来防止IP被封。定时拨号的
相关文章
相关标签/搜索