如何写一个一天爬取 100 万张网页的爬虫

本文转自公众号:猿人学Python 摘要:介绍爬取大量网页需要重点关注的几个方面。 通常来说,多数人写的爬虫量级很小,几千上万个页面/信息,多则也不过百万以内。对一个网站定向抓取几十万张页面一般只用解决访问频率限制问题就好。对机器内存,硬盘空间,URL去重,网络性能,抓取间隙时间调优一般都不会在意。如果要设计一个单台每天抓取上百万张网页,共有一亿张页面的网站时,访问频率限制问题就不是最棘手的问题了
相关文章
相关标签/搜索