通用爬虫框架及heritrix爬虫介绍

第1部分 通用爬虫 1.1 通用爬虫框架介绍   图1-1描述了通用的爬虫框架,其基本上包括了一个爬虫系统所需要的所有模块。任何一个爬虫系统的设计图,会发现都有一个环路,这个环代表着爬虫大致的工作流程:根据url将对应的网页下载下来,然后提取出网页中包含的url,再根据这些新的URL下载对应的网页,周而复始。爬虫系统的子模块都位于这个环路中,并完成某项特定的功能。     图1- 1 通用爬虫框架
相关文章
相关标签/搜索