简单的爬虫架构

爬虫架构 URL管理器对将要爬取的url和已经爬取过的url进行管理。取出待爬取的url传给网页下载器。 网页下载器将url指定的网页下载下来,存储成字符串,传给网页解析器进行解析。 网页解析器从网页字符串内容中取出有价值的数据(也就是我们最终想要的数据)。
相关文章
相关标签/搜索