python爬虫入门教程-Python 爬虫介绍

时间 2021-04-30

原文原文链接

一、什么是爬虫爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。二、Python爬虫架构 Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。 URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓

>>阅读原文<<