爬虫：Scrapy7 - Scrapy终端(Scrapy shell)

时间 2019-12-19

原文原文链接

Scrapy 终端是一个交互终端，能够在未启动 spider 的状况下尝试及调试你的爬取代码。其本意是用来测试提取数据的代码，不过能够将其做为正常的 Python 终端，在上面测试任何 Python 代码。css

该终端是用来测试 XPath 或 CSS 表达式，查看他们的工做方式及从爬取的网页中提取的数据。在编写您的 spider 时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行 spider 的麻烦。html

启动终端

scrapy shell <url>

<url> 是你要爬取的网页的地址。shell

可用的快捷命令（shortcut）

shelp() - 打印可用对象及快捷命令的帮助列表
fetch(request_or_url) - 根据给定的请求(request)或 URL 获取一个新的 response，并更新相关的对象
view(response) - 在本机的浏览器打开给定的 response。其会在 response 的 body 中添加一个 tag ，使得外部连接(例如图片及 css)能正确显示。注意，该操做会在本地建立一个临时文件，且该文件不会被自动删除。

可用的 Scarpy 对象

Scrapy 终端根据下载的页面会建立一些方便使用的对象，例如 Response 对象及 Selector 对象（对 HTML 和 XML 内容）。浏览器

这些对象有：session

crawler - 当前 Crawler 对象。
spider - 处理 URL 的 spider。对当前 URL 没有处理的 Spider 时则为一个 Spider 对象。
request - 最近获取到的页面的 Request 对象。您可使用 replace() 修改该 request。或者使用 fetch 快捷方式来获取新的 request。
response - 包含最近获取到的页面的 Response 对象。
sel - 根据最近获取到的 response 构建的 Selector 对象。
settings - 当前的 Scrapy settings

终端会话（shell session）样例

下面给出一个典型的终端会话的例子。在该例子中，咱们首先爬取了 http://scarpy.org 的页面，然后接着爬取 http://slashdot.org 的页面。最后，咱们修改了(Slashdot)的请求，将请求设置为 POST 并从新获取，获得 HTTP 405(不容许的方法)错误。以后经过 Ctrl-D(Unix)或 Ctrl-Z(Windows)关闭会话。scrapy

须要注意的是，因为爬取的页面不是静态页，内容会随着时间而修改，所以例子中提取到的数据可能与您尝试的结果不一样。ide

scrapy shell 'http://scrapy.org' --nolog

接着该终端(使用 Scrapy 下载器(downloader))获取 URL 内容并打印可用的对象及快捷命令(注意到以[s]开头的行):函数

[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1e16b50>
[s]   item       {}
[s]   request    <GET http://scrapy.org>
[s]   response   <200 http://scrapy.org>
[s]   sel        <Selector xpath=None data=u'<html>\n  <head>\n    <meta charset="utf-8'>
[s]   settings   <scrapy.settings.Settings object at 0x2bfd650>
[s]   spider     <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s]   shelp()           Shell help (print this help)
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects
[s]   view(response)    View response in a browser

>>>

以后，就能够操做这些对象了：测试

>>> sel.xpath("//h2/text()").extract()[0]
u'Welcome to Scrapy'

>>> fetch("http://slashdot.org")
[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1a13b50>
[s]   item       {}
[s]   request    <GET http://slashdot.org>
[s]   response   <200 http://slashdot.org>
[s]   sel        <Selector xpath=None data=u'<html lang="en">\n<head>\n\n\n\n\n<script id="'>
[s]   settings   <scrapy.settings.Settings object at 0x2bfd650>
[s]   spider     <Spider 'default' at 0x20c6f50>
[s] Useful shortcuts:
[s]   shelp()           Shell help (print this help)
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects
[s]   view(response)    View response in a browser

>>> sel.xpath('//title/text()').extract()
[u'Slashdot: News for nerds, stuff that matters']

>>> request = request.replace(method="POST")

>>> fetch(request)
[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1e16b50>
...

>>>

在 spider 中启动 shell 来查看 response

有时您想在 spider 的某个位置中查看被处理的 response，以确认您指望的 response 到达特定位置。fetch

这能够经过 scrapy.shell.inspect_response 函数来实现。

如下是如何在 spider 中调用该函数的例子:

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = [
        "http://example.com",
        "http://example.org",
        "http://example.net",
    ]

    def parse(self, response):
        # We want to inspect one specific response.
        if ".org" in response.url:
            from scrapy.shell import inspect_response
            inspect_response(response, self)

        # Rest of parsing code.

当运行 spider 时，您将获得相似下列的输出:

2014-01-23 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.com> (referer: None)
2014-01-23 17:48:31-0400 [myspider] DEBUG: Crawled (200) <GET http://example.org> (referer: None)
[s] Available Scrapy objects:
[s]   crawler    <scrapy.crawler.Crawler object at 0x1e16b50>
...

>>> response.url
'http://example.org'

接着测试提取代码：

>>> sel.xpath('//h1[@class="fn"]')
[]

看来是没有。您能够在浏览器里查看 response 的结果，判断是不是您指望的结果:

>>> view(response)
True

最后您能够点击 Ctrl-D(Windows 下 Ctrl-Z)来退出终端，恢复爬取:

>>> ^D
2014-01-23 17:50:03-0400 [myspider] DEBUG: Crawled (200) <GET http://example.net> (referer: None)
...

注意: 因为该终端屏蔽了 Scrapy 引擎，您在这个终端中不能使用 fetch 快捷命令(shortcut)。当您离开终端时，spider 会从其停下的地方恢复爬取，正如上面显示的那样。

1. python爬虫scrapy之scrapy终端(Scrapy shell)
2. 爬虫框架：scrapy 爬虫框架：scrapy
3. scrapy爬虫shell用法
4. Scrapy爬虫 -- 03
5. Scrapy爬虫 -- 01
6. Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)
7. 爬虫-scrapy
8. 爬虫之Scrapy
9. Scrapy爬虫 -- 02
10. python scrapy 爬虫
更多相关文章...
• WSDL 端口 - WSDL 教程
• XSLT - 在客户端 - XSLT 教程
• Docker容器实战(一) - 封神Server端技术
• 使用阿里云OSS+CDN部署前端页面与加速静态资源