新浪微博爬虫分享(2016年12月01日更新)

前言: 上篇文章:《新浪微博爬虫分享(一天可抓取 1300 万条数据)》、《新浪微博分布式爬虫分享》 Github地址:SinaSpider Q群讨论:python 更新完《QQ空间爬虫分享(2016年11月18日更新)》,如今将新浪微博爬虫的代码也更新一下吧。git 此次主要对爬虫的种子队列和去重策略做了优化,并更新了Cookie池的维护,只需拷贝代码便可实现爬虫分布式扩展,适合大规模抓取。 g
相关文章
相关标签/搜索