Scrapy设定(settings)提供了定制Scrapy组件的方法。你能够控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。html
下面给出scrapy提供的经常使用内置设置列表,你能够在settings.py文件里面修改这些设置,以应用或者禁用这些设置项。python
DEFAULT_REQUEST_HEADERS
默认:shell
{
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', }
Scrapy HTTP Request使用的默认header。由 DefaultHeadersMiddleware 产生。USER_AGENT
默认: "Scrapy/VERSION (+http://scrapy.org)"
爬取的默认User-Agent,除非被覆盖。服务器
scrapy对某些内部组件进行了默认设置,这些组件一般状况下是不能被修改的,可是咱们在自定义了某些组件之后,好比咱们设置了自定义的middleware中间件,须要按照必定的顺序把他添加到组件之中,这个时候须要参考scrapy的默认设置,由于这个顺序会影响scrapy的执行,下面列出了scrapy的默认基础设置。cookie
注意:若是你想要修改如下的某些设置,应该避免直接修改下列内容,而是修改其对应的自定义内容,例如,你想修改下面的DOWNLOADER_MIDDLEWARES_BASE
的内容,你应该去修改DOWNLOADER_MIDDLEWARES
这个内容,只是去掉了_BASE
而已,其余的也是相似这样。并发
DOWNLOADER_MIDDLEWARES_BASE
默认:app
{
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300, 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 400, 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500, 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 550, 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580, 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590, 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600, 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700, 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750, 'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware': 830, 'scrapy.downloadermiddlewares.stats.DownloaderStats': 850, 'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900, }
包含Scrapy默认启用的下载中间件的字典。 永远不要在项目中修改该设定,而是修改 DOWNLOADER_MIDDLEWARES 。scrapy
SPIDER_MIDDLEWARES_BASE
默认:ide
{
'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500, 'scrapy.spidermiddlewares.referer.RefererMiddleware': 700, 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800, 'scrapy.spidermiddlewares.depth.DepthMiddleware': 900, }
保存项目中默认启用的spider中间件的字典。 永远不要在项目中修改该设定,而是修改 SPIDER_MIDDLEWARES 。EXTENSIONS_BASE
默认:网站
{
'scrapy.extensions.corestats.CoreStats': 0, 'scrapy.telnet.TelnetConsole': 0, 'scrapy.extensions.memusage.MemoryUsage': 0, 'scrapy.extensions.memdebug.MemoryDebugger': 0, 'scrapy.extensions.closespider.CloseSpider': 0, 'scrapy.extensions.feedexport.FeedExporter': 0, 'scrapy.extensions.logstats.LogStats': 0, 'scrapy.extensions.spiderstate.SpiderState': 0, 'scrapy.extensions.throttle.AutoThrottle': 0, }
可用的插件列表。须要注意,有些插件须要经过设定来启用。默认状况下, 该设定包含全部稳定(stable)的内置插件。DOWNLOAD_HANDLERS_BASE
默认:
{
'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler', 'http': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler', 'https': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler', 's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler', }
保存项目中默认启用的下载处理器(request downloader handler)的字典。 永远不要在项目中修改该设定,而是修改 DOWNLOADER_HANDLERS 。
若是须要关闭上面的下载处理器,您必须在项目中的 DOWNLOAD_HANDLERS 设定中设置该处理器,并为其赋值为 None 。
即便咱们添加了一些咱们自定义的组件,scrapy默认的base设置依然会被应用,这样说可能会一头雾水,简单地例子:
假如咱们在middlewares.py文件中定义了一个中间件,名称为MyMiddleware,咱们把它添加到settings.py文件里面的DOWNLOADER_MIDDLEWARES
,且他的执行顺序咱们设置为450,最终的设置内容就是:
DOWNLOADER_MIDDLEWARES = { 'cnblog.middlewares.MyMiddleware':450, }
咱们再来看一下默认的DOWNLOADER_MIDDLEWARES_BASE
的内容:
DOWNLOADER_MIDDLEWARES_BASE ={
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300, 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 400, 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500, 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 550, 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580, 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590, 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600, 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700, 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750, 'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware': 830, 'scrapy.downloadermiddlewares.stats.DownloaderStats': 850, 'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900, }
这个时候,scrapy下载中间件的最终的执行顺序就是,把DOWNLOADER_MIDDLEWARES
和DOWNLOADER_MIDDLEWARES_BASE
里面的中间件按照顺序执行,100>300>350>400>450>500>550>580>590>600>700>750>830>850>900
且所有执行,并不会由于咱们定义了一个中间件,而使默认的中间件失效,也就是说,最终的结果实际上是合并执行。
若是咱们不想应用某一个默认的中间件,假如'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500,
那么,就应该在DOWNLOADER_MIDDLEWARES
里面把它的值设置为None,像下面这样:
DOWNLOADER_MIDDLEWARES = {
'cnblog.middlewares.MyMiddleware':450, 'scrapy.downloadermiddlewares.retry.RetryMiddleware':None, }