实现简单分布式爬虫

时间 2019-12-07

原文原文链接

实验目的 1.从一个给定的网址中分析其所包含的 URL 并爬取对应的网页，直到爬取彻底部html 不重复的网页为止。python 2.支持分布式爬取，同时记录输出每个网页的大小。redis 3.采用多线程结构设计，实现高性能的网络爬虫。json 实验环境 Windows10+python3.6+celery+redis3.2+redis Desktop Managerwindows 实验内容