实现简单分布式爬虫

  实验目的 1.从一个给定的网址中分析其所包含的 URL 并爬取对应的网页,直到爬取彻底部html 不重复的网页为止。python 2.支持分布式爬取,同时记录输出每个网页的大小。redis 3.采用多线程结构设计,实现高性能的网络爬虫。json 实验环境 Windows10+python3.6+celery+redis3.2+redis Desktop Managerwindows 实验内容
相关文章
相关标签/搜索