记一个简单的增量式爬虫方案

最近在玩爬虫,于是基于以下需求场景设计了一个简单并且验证可用的增量式爬虫方案。 场景 需要爬取多个同类型的网站数据 网站数据持续、不定期更新 数据量不太大,每日更新几千 获取到的数据可以用来玩(数据分析等等),嘿嘿 对于这种类型的需求,先捋捋需要考虑的问题: 数据如何去重 怎样的存储方案 我的设计方案 如图: 爬虫通过一个定时任务以多线程启动,爬取的数据直接放入消息队列等待下一步处理 第二个定时任
相关文章
相关标签/搜索