pyspider是好东西,很是稳定,好久好久之前架了一个,心冷了一段时间,但人家尽忠职守地持续运行,一直在抓取东西。chrome
结合chrome,抓取代码简直不要太好写,没想到,最头大的,仍是它的调度。明明感受没问题的,就是不运行。在这个上面花的时间,比页面解析的要多。因此,把近期的学习心得记录下来:服务器
第1、控制台的含义。rate/burst控制并发和速度基本不用管。progress现实近期调用次数能够参考一下。我用得最多的是左上角的Recent Active Tasks,能够查看究竟运行了几个爬虫任务(对应self.crawl)并发
第2、几个重要控制设置。@every(minutes=24*60)是指的运行间隔。@config(age=300)指的页面周期(单位秒),周期范围内将不执行抓取。ide
第3、个人需求,是对一些固定页面(已经存在库中了)进行定时检查,解析出连接,已经入库的老连接忽略,新连接入库。因此,不采用默认的start页面进入总页面,解析出一组分页面连接,再分别调用分页面的方式。而直接在start中启动全部分页面,分页面设置有效期,按期自动从新获取。而start天天重入一次,保证连接活动便可。以下:学习
补充一下,若是设定了从新刷新的间隔,那么——这个间隔很难修改,哪怕把服务器上pyspider关了,重开,仍是原来的间隔。最后没办法,只能新建一个项目,把代码复制过去才ok!pyspider