pyspider最佳实践

时间 2019-11-06

标签 pyspider 最佳实践繁體版

原文原文链接

pyspider是好东西，很是稳定，好久好久之前架了一个，心冷了一段时间，但人家尽忠职守地持续运行，一直在抓取东西。chrome

结合chrome，抓取代码简直不要太好写，没想到，最头大的，仍是它的调度。明明感受没问题的，就是不运行。在这个上面花的时间，比页面解析的要多。因此，把近期的学习心得记录下来：服务器

第1、控制台的含义。rate/burst控制并发和速度基本不用管。progress现实近期调用次数能够参考一下。我用得最多的是左上角的Recent Active Tasks，能够查看究竟运行了几个爬虫任务（对应self.crawl）并发

第2、几个重要控制设置。@every(minutes=24*60)是指的运行间隔。@config(age=300)指的页面周期（单位秒），周期范围内将不执行抓取。ide

第3、个人需求，是对一些固定页面（已经存在库中了）进行定时检查，解析出连接，已经入库的老连接忽略，新连接入库。因此，不采用默认的start页面进入总页面，解析出一组分页面连接，再分别调用分页面的方式。而直接在start中启动全部分页面，分页面设置有效期，按期自动从新获取。而start天天重入一次，保证连接活动便可。以下：学习

补充一下，若是设定了从新刷新的间隔，那么——这个间隔很难修改，哪怕把服务器上pyspider关了，重开，仍是原来的间隔。最后没办法，只能新建一个项目，把代码复制过去才ok！pyspider