Scrapy中的数据流由执行引擎控制,其过程以下:框架
引擎从Spiders中获取到最初的要爬取的请求(Requests).
引擎安排请求(Requests)到调度器中,并向调度器请求下一个要爬取的请求(Requests).
调度器返回下一个要爬取的请求(Requests)给引擎.
引擎将上步中获得的请求(Requests)经过下载器中间件(Downloader Middlewares)发送给下载器(Downloader ),这个过程当中下载器中间件(Downloader Middlewares)中的process_request()函数会被调用到.
一旦页面下载完毕,下载器生成一个该页面的Response,并将其经过下载中间件(Downloader Middlewares)发送给引擎,这个过程当中下载器中间件(Downloader Middlewares)中的process_response()函数会被调用到.
引擎从下载器中获得上步中的Response并经过Spider中间件(Spider Middlewares)发送给Spider处理,这个过程当中Spider中间件(Spider Middlewares)中的process_spider_input()函数会被调用到.
Spider处理Response并经过Spider中间件(Spider Middlewares)返回爬取到的Item及(跟进的)新的Request给引擎,这个过程当中Spider中间件(Spider Middlewares)的process_spider_output()函数会被调用到.
引擎将上步中Spider处理的其爬取到的Item给Item 管道(Pipeline),将Spider处理的Request发送给调度器,并向调度器请求可能存在的下一个要爬取的请求(Requests).
(从第二步)重复直到调度器中没有更多的请求(Requests).异步
在以前代码中,咱们历来没有过手动的对start_urls 列表中存储的起始url进行对请求的发送, 可是起始url的确进行了请求的发送, 这是怎么实现的呢?scrapy
解答: 其实爬虫文件中的爬虫类继承了Spider父类中的start_urls(self)这个方法,该方法就能够对start_urls列表中的url发起请求 : ide
def start_requests(self): for u in self.start_urls: yield scrapy.Request(url=u,callback=self.parse)
注意 : 该方法默认的是进行get请求的发送,若是想要进行post请求,就要重写该方法 : 函数
def start_requests(self): #请求的url post_url = 'http://fanyi.baidu.com/sug' #post请求的参数,是个字典的形式 data = { 'kw':'dog' } #发送post请求 yield scrapy.FormRequest(url=post_url,formdata=data,callback=self.parse)