scrapy shell 遇到的问题

有时候用scrapy shell来调试很方便,可是有些网站有防爬虫机制,因此使用scrapy shell会返回403,好比下面html

  

有两种解决方法:python

  (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0'shell

  第一种方法最简单可是每次操做都要加上去很繁琐,第二种方法比较好。scrapy

  (2):第二种方法是修改scrapy的user-agent默认值网站

  找到python的:安装目录下的default_settings.py文件,好比个人C:\Users\0923\AppData\Local\Programs\Python\Python37\Lib\site-packages\scrapy\settings  调试

  把htm

    USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__blog

  改成it

    USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'

io

  使用shell再次,发现已经能够正常访问html不会在出现403错误了。

  

相关文章
相关标签/搜索