Scrapy爬虫提升效率

时间 2019-11-08

原文原文链接

如何提升scrapy的爬取效率cookie

增长并发：
    默认scrapy开启的并发线程为32个，能够适当进行增长。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 下降日志级别： 在运行scrapy时，会有大量日志信息的输出，为了减小CPU的使用率。能够设置log输出信息为INFO或者ERROR便可。在配置文件中编写：LOG_LEVEL = ‘INFO’ 禁止cookie： 若是不是真的须要cookie，则在scrapy爬取数据时能够进制cookie从而减小CPU的使用率，提高爬取效率。在配置文件中编写：COOKIES_ENABLED = False 禁止重试： 对失败的HTTP进行从新请求（重试）会减慢爬取速度，所以能够禁止重试。在配置文件中编写：RETRY_ENABLED = False 减小下载超时： 若是对一个很是慢的连接进行爬取，减小下载超时能够能让卡住的连接快速被放弃，从而提高效率。在配置文件中进行编写：DOWNLOAD_TIMEOUT = 10 超时时间为10s

Scrapy的日志等级并发

　　- 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。app

　　- 日志信息的种类：scrapy

　　　　　　　　ERROR ：通常错误ide

　　　　　　　　WARNING : 警告ui

　　　　　　　　INFO : 通常的信息spa

　　　　　　　　DEBUG ：调试信息线程

　　- 设置日志信息指定输出：调试

　　　　在settings.py配置文件中，加入日志

LOG_LEVEL = ‘指定日志信息种类’便可。

LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。