Python进行数据爬取

时间 2021-07-11

原文原文链接

1.基本的爬虫架构主要包括调度器，URL管理器，网页下载器，网页解析器这些部分，实现价值数据的获取。 1.1 URL管理器对待抓取的URL集合和已抓取的URL集合进行管理，避免重复抓取和循环抓取。主要有5个部分的功能，判断待添加URL是否在容器中、添加新的URL到待爬取集合、判断是否还有待爬取集合、获取待爬取URL、将URL从待爬取的集合移动到已爬取集合中。