基本爬虫框架

基本爬虫框架包括五个模块:爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。 1. 爬虫调度器负责统筹其余四个模块协调工做。 2. URL管理器负责管理URL连接,包括已爬取的连接和未爬取的连接。 3. HTML下载器用于从URL管理器中获取未爬取的连接并下载其HTML网页。 4. HTML解析器用于解析HTML下载器下载的HTML网页,获取URL连接交给URL管理器,提取要获
相关文章
相关标签/搜索