Scrapy架构概览

时间 2021-01-13

原文原文链接

首先Spider发送第一个需要爬取的Requests给Engine,然后跳到4 Engine在Scheduler中对Requests进行调度, 并请求下一个需要爬取的Requests. Scheduler接受请求后, 返回下一个Requests给Engine. Engine收到Requests后, Requests经过Downloader Middlewares的process_request()