基本爬虫框架

基本爬虫框架包括五个模块:爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。 1. 爬虫调度器负责统筹其他四个模块协调工作。 2. URL管理器负责管理URL链接,包括已爬取的链接和未爬取的链接。 3. HTML下载器用于从URL管理器中获取未爬取的链接并下载其HTML网页。 4. HTML解析器用于解析HTML下载器下载的HTML网页,获取URL链接交给URL管理器,提取要获
相关文章
相关标签/搜索