分布式爬虫设计

网上也有不少的分布式爬虫框架的解决方案,下面我就以本身工做的经验进行一些总结:python   一,爬虫的技术要点mongodb     要向批量抓取某一个大站,你须要本身搭建一套爬虫框架。要考虑封IP问题,考虑图片验证码识别问题,考虑数据处理问题等。框架     封IP--常见的解决方案基本上就是告诉你抓免费代理,或者购买代理,我这里想到的是若是你有条件有多个路由器,彻底能够本身实现一套定时拨号
相关文章
相关标签/搜索