Scrapy 终端是一个交互终端,能够在未启动 spider 的状况下尝试及调试你的爬取代码。其本意是用来测试提取数据的代码,不过能够将其做为正常的 Python 终端,在上面测试任何 Python 代码。css
该终端是用来测试 XPath 或 CSS 表达式,查看他们的工做方式及从爬取的网页中提取的数据。 在编写您的 spider 时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行 spider 的麻烦。html
scrapy shell <url>
<url> 是你要爬取的网页的地址。shell
shelp()
- 打印可用对象及快捷命令的帮助列表fetch(request_or_url)
- 根据给定的请求(request)或 URL 获取一个新的 response,并更新相关的对象view(response)
- 在本机的浏览器打开给定的 response。 其会在 response 的 body 中添加一个 tag ,使得外部连接(例如图片及 css)能正确显示。 注意,该操做会在本地建立一个临时文件,且该文件不会被自动删除。Scrapy 终端根据下载的页面会建立一些方便使用的对象,例如 Response 对象及 Selector 对象(对 HTML 和 XML 内容)。浏览器
这些对象有:session
下面给出一个典型的终端会话的例子。 在该例子中,咱们首先爬取了 http://scarpy.org 的页面,然后接着爬取 http://slashdot.org 的页面。 最后,咱们修改了(Slashdot)的请求,将请求设置为 POST 并从新获取, 获得 HTTP 405(不容许的方法)错误。 以后经过 Ctrl-D(Unix)或 Ctrl-Z(Windows)关闭会话。scrapy
须要注意的是,因为爬取的页面不是静态页,内容会随着时间而修改, 所以例子中提取到的数据可能与您尝试的结果不一样。ide
scrapy shell 'http://scrapy.org' --nolog
接着该终端(使用 Scrapy 下载器(downloader))获取 URL 内容并打印可用的对象及快捷命令(注意到以[s]
开头的行):函数
[s] Available Scrapy objects: [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50> [s] item {} [s] request <GET http://scrapy.org> [s] response <200 http://scrapy.org> [s] sel <Selector xpath=None data=u'<html>\n <head>\n <meta charset="utf-8'> [s] settings <scrapy.settings.Settings object at 0x2bfd650> [s] spider <Spider 'default' at 0x20c6f50> [s] Useful shortcuts: [s] shelp() Shell help (print this help) [s] fetch(req_or_url) Fetch request (or URL) and update local objects [s] view(response) View response in a browser >>>
以后,就能够操做这些对象了:测试
>>> sel.xpath("//h2/text()").extract()[0] u'Welcome to Scrapy' >>> fetch("http://slashdot.org") [s] Available Scrapy objects: [s] crawler <scrapy.crawler.Crawler object at 0x1a13b50> [s] item {} [s] request <GET http://slashdot.org> [s] response <200 http://slashdot.org> [s] sel <Selector xpath=None data=u'<html lang="en">\n<head>\n\n\n\n\n<script id="'> [s] settings <scrapy.settings.Settings object at 0x2bfd650> [s] spider <Spider 'default' at 0x20c6f50> [s] Useful shortcuts: [s] shelp() Shell help (print this help) [s] fetch(req_or_url) Fetch request (or URL) and update local objects [s] view(response) View response in a browser >>> sel.xpath('//title/text()').extract() [u'Slashdot: News for nerds, stuff that matters'] >>> request = request.replace(method="POST") >>> fetch(request) [s] Available Scrapy objects: [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50> ... >>>
有时您想在 spider 的某个位置中查看被处理的 response, 以确认您指望的 response 到达特定位置。fetch
这能够经过 scrapy.shell.inspect_response 函数来实现。
如下是如何在 spider 中调用该函数的例子:
import scrapy class MySpider(scrapy.Spider): name = "myspider" start_urls = [ "http://example.com", "http://example.org", "http://example.net", ] def parse(self, response): # We want to inspect one specific response. if ".org" in response.url: from scrapy.shell import inspect_response inspect_response(response, self) # Rest of parsing code.
当运行 spider 时,您将获得相似下列的输出:
2014-01-23 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.com> (referer: None) 2014-01-23 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.org> (referer: None) [s] Available Scrapy objects: [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50> ... >>> response.url 'http://example.org'
接着测试提取代码:
>>> sel.xpath('//h1[@class="fn"]') []
看来是没有。您能够在浏览器里查看 response 的结果,判断是不是您指望的结果:
>>> view(response)
True
最后您能够点击 Ctrl-D(Windows 下 Ctrl-Z)来退出终端,恢复爬取:
>>> ^D 2014-01-23 17:50:03-0400 [myspider] DEBUG: Crawled (200) <GET http://example.net> (referer: None) ...
注意: 因为该终端屏蔽了 Scrapy 引擎,您在这个终端中不能使用 fetch
快捷命令(shortcut)。 当您离开终端时,spider 会从其停下的地方恢复爬取,正如上面显示的那样。