PySpider基本架构一般了解

从on_start开始调用, 回调至index_page,(.doc)是一个pyquery请求解析函数 .items()是一个pyquery的API self.crawl会生成一个request Pyspider基本架构: 1.scheduler :调度器, 调度程序从处理器的newtask_queue接收任务。确定任务是新任务还是需要重新爬网。 2.fetcher:请求器,发送请求;与 phan
相关文章
相关标签/搜索