如何提升scrapy的爬取效率cookie
增长并发: 默认scrapy开启的并发线程为32个,能够适当进行增长。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 下降日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减小CPU的使用率。能够设置log输出信息为INFO或者ERROR便可。在配置文件中编写:LOG_LEVEL = ‘INFO’ 禁止cookie: 若是不是真的须要cookie,则在scrapy爬取数据时能够进制cookie从而减小CPU的使用率,提高爬取效率。在配置文件中编写:COOKIES_ENABLED = False 禁止重试: 对失败的HTTP进行从新请求(重试)会减慢爬取速度,所以能够禁止重试。在配置文件中编写:RETRY_ENABLED = False 减小下载超时: 若是对一个很是慢的连接进行爬取,减小下载超时能够能让卡住的连接快速被放弃,从而提高效率。在配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 超时时间为10s
Scrapy的日志等级并发
- 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。app
- 日志信息的种类:scrapy
ERROR : 通常错误ide
WARNING : 警告ui
INFO : 通常的信息spa
DEBUG : 调试信息线程
- 设置日志信息指定输出:调试
在settings.py配置文件中,加入日志
LOG_LEVEL = ‘指定日志信息种类’便可。
LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。