爬虫的分层结构

抓取层

  1. 主要做用是获取原始网页的HTML数据或者JSON数据

调度层

  1. 负责准备即将爬取的URL与分配爬取任务

解析层

  1. 将原始数据解析为结构化数据,保存至数据库

存储层

  1. 负责将数据保存到数据库
相关文章
相关标签/搜索