分布式爬虫架构设计

分布式爬虫架构设计 最近又和爬虫干上了,有3000万个搜索关键词,1个关键词搜索结果有多个,每个结果对应一个ID,每个ID的对应的目标页面由多个请求接口返回的json组合而成。 1.在架构上使用kafka分发搜索关键词,利用了kafka同一消费组只消费一次的特性。 2.利用redis进行id去重。 3.在扩展性上利用kafka的consumer balance,实现爬虫进程的可以随时增加减少(当然
相关文章
相关标签/搜索