爬虫入门——02

爬虫入门——02 1. 引言     在上一篇中,我们简单的了解了爬虫的工作流程,也简单的实现了一个爬虫,并且在文末简单分析了目前存在的问题。这一篇博客将会对上一篇分析出的问题,给出改进方法。我们将从以下几个方面加以改进。 2. 改进 (1) Bloom Filter     我们首先利用Bloom Filet来改进UrlQueue中的visitedSet。     在上一篇中,我们使用visit
相关文章
相关标签/搜索