分布式爬虫的设计与实现

分布式爬虫的设计与实现css 基本环境 linux操做系统、pycharm集成开发环境 主要功能 设计并实现一种基于“C/S”结构的爬虫,在并发爬取的状况下实现对大规模网页的爬取,并提取出网页的相关信息。 关键技术 python、mongodb、广度优先与深度控制 系统结构 实现方案 Mongodb数据库中用于存放url对应的记录,每条记录格式为: { “_id”:url, “state”:OUT
相关文章
相关标签/搜索