python爬虫(二)简单的架构

要实现一个爬虫我们需要考虑那几个方面呢? 首先我们需要一个爬虫的调度端,来启动爬虫,运行爬虫,监视爬虫的运行情况. 在爬虫程序有三个模块. 1 URL管理器 : 将我们的将要爬取得URL和已经爬取过的URL 2 网页下载器: 将我们URL管理器中待爬取的URL将其传送给网页下载器,下载器将指定的URL下载下来组成一个字符串. 3 网页解析器: 将我们的网页下载器下载下来的字符串传送给网页解析器,然
相关文章
相关标签/搜索