Scrapy爬虫提升效率

如何提升scrapy的爬取效率cookie

增长并发:
    默认scrapy开启的并发线程为32个,能够适当进行增长。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 下降日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减小CPU的使用率。能够设置log输出信息为INFO或者ERROR便可。在配置文件中编写:LOG_LEVEL = ‘INFO’ 禁止cookie: 若是不是真的须要cookie,则在scrapy爬取数据时能够进制cookie从而减小CPU的使用率,提高爬取效率。在配置文件中编写:COOKIES_ENABLED = False 禁止重试: 对失败的HTTP进行从新请求(重试)会减慢爬取速度,所以能够禁止重试。在配置文件中编写:RETRY_ENABLED = False 减小下载超时: 若是对一个很是慢的连接进行爬取,减小下载超时能够能让卡住的连接快速被放弃,从而提高效率。在配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 超时时间为10s



Scrapy的日志等级并发

  - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。app

  - 日志信息的种类:scrapy

        ERROR : 通常错误ide

        WARNING : 警告ui

        INFO : 通常的信息spa

        DEBUG : 调试信息线程

       

  - 设置日志信息指定输出:调试

    在settings.py配置文件中,加入日志

                    LOG_LEVEL = ‘指定日志信息种类’便可。

                    LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。

相关文章
相关标签/搜索