python网络爬虫的简单架构

时间 2020-12-31

原文原文链接

1、首先需要一个爬虫客户端来启动爬虫或者监视爬虫的运行情况 2、URL管理器对将要爬取的URL和已爬取的URL进行管理，对URL管理的目的是为了避免重复爬取和循环爬取；从URL管理器中可以取出一个待爬取的URL传送给网页下载器，网页下载器会将网页下载下来存储成一个字符串，这个字符串会传送给网页解析器进行解析；一方面会解析出有价值的数据，另一方面每个网页都有很多指向其他网页的 URL

>>阅读原文<<