pyspider 爬虫教程（二）：AJAX 和 HTTP

时间 2019-11-10

原文原文链接

在上一篇教程中，咱们使用 self.crawl API 抓取豆瓣电影的 HTML 内容，并使用 CSS 选择器解析了一些内容。不过，如今的网站经过使用 AJAX 等技术，在你与服务器交互的同时，不用从新加载整个页面。可是，这些交互手段，让抓取变得稍微难了一些：你会发现，这些网页在抓回来后，和浏览器中的并不相同。你须要的信息并不在返回 HTML 代码中。html

在这一篇教程中，咱们会讨论这些技术和抓取他们的方法。（英文版：AJAX-and-more-HTTP）前端

AJAX

AJAX 是 Asynchronous JavaScript and XML（异步的 JavaScript 和 XML）的缩写。AJAX 经过使用原有的 web 标准组件，实现了在不从新加载整个页面的状况下，与服务器进行数据交互。例如在新浪微博中，你能够展开一条微博的评论，而不须要从新加载，或者打开一个新的页面。可是这些内容并非一开始就在页面中的（这样页面就太大了），而是在你点击的时候被加载进来的。这就致使了你抓取这个页面的时候，并不能得到这些评论信息（由于你没有『展开』）。python

AJAX 的一种常见用法是使用 AJAX 加载 JSON 数据，而后在浏览器端渲染。若是能直接抓取到 JSON 数据，会比 HTML 更容易解析。web

当一个网站使用了 AJAX 的时候，除了用 pyspider 抓取到的页面和浏览器看到的不一样之外。你在浏览器中打开这样的页面，或者点击『展开』的时候，经常会看到『加载中』或者相似的图标/动画。例如，当你尝试抓取：http://movie.douban.com/exploreajax

你会发现电影是『载入中...』chrome

找到真实的请求

因为 AJAX 实际上也是经过 HTTP 传输数据的，因此咱们能够经过 Chrome Developer Tools 找到真实的请求，直接发起真实请求的抓取就能够得到数据了。json

打开一个新窗口
按 Ctrl+Shift+I (在 Mac 上请按 Cmd+Opt+I) 打开开发者工具。
切换到网络（ Netwotk 面板）
在窗口中打开 http://movie.douban.com/explore

在页面加载的过程当中，你会在面板中看到全部的资源请求。api

AJAX 通常是经过 XMLHttpRequest 对象接口发送请求的，XMLHttpRequest 通常被缩写为 XHR。点击网络面板上漏斗形的过滤按钮，过滤出 XHR 请求。挨个查看每一个请求，经过访问路径和预览，找到包含信息的请求：http://movie.douban.com/j/searchX61Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0浏览器

在豆瓣这个例子中，XHR 请求并很少，能够挨个查看来确认。但在 XHR 请求较多的时候，可能须要结合触发动做的时间，请求的路径等信息帮助在大量的请求中找到包含信息的关键请求。这须要抓取或者前端的相关经验。因此，有一个我一直在提的观点，学习抓取的最好方法是：学会写网站。服务器

如今能够在新窗口中打开 http://movie.douban.com/j/searchX67Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0，你会看到包含电影数据的 JSON 原始数据。推荐安装 JSONView（Firfox版）插件，这样能够看到更好看的 JSON 格式，展开折叠列等功能。而后，咱们根据 JSON 数据，编写一个提取电影名和评分的脚本：

pythonclass Handler(BaseHandler):
    def on_start(self):
        self.crawl('http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0',
                   callback=self.json_parser)

    def json_parser(self, response):
        return [{
            "title": x['title'],
            "rate": x['rate'],
            "url": x['url']
        } for x in response.json['subjects']]

你可使用 response.json 将结果转为一个 python 的 dict 对象

你能够在 http://demo.pyspider.org/debug/tutorial_douban_explore 得到完整的代码，并进行调试。脚本中还有一个使用 PhantomJS 渲染的提取版本，将会在下一篇教程中介绍。

HTTP

HTTP 是用来传输网页内容的协议。在前面的教程中，咱们已经经过 self.crawl 接口提交了 URL 进行了抓取。这些抓取就是经过 HTTP 协议传输的。

在抓取过程当中，你可能会遇到相似 403 Forbidden，或者须要登陆的状况，这时候你就须要正确的 HTTP 参数进行抓取了。

一个典型的 HTTP 请求包以下，这个请求是发往 http://example.com/ 的：

httpGET / HTTP/1.1
Host: example.com
Connection: keep-alive
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.45 Safari/537.36
Referer: http://en.wikipedia.org/wiki/Example.com
Accept-Encoding: gzip, deflate, sdch
Accept-Language: zh-CN,zh;q=0.8
If-None-Match: "359670651"
If-Modified-Since: Fri, 09 Aug 2013 23:54:35 GMT

请求的第一行包含 method, path 和 HTTP 协议的版本信息

余下的行被称为 header，是以 key: value 的形式呈现的

若是是 POST 请求，在请求结尾可能还会有 body 内容

你能够经过前面用过的 Chrome Developer Tools 工具查看到这些信息：

在大多数时候，使用正确的 method, path, headers 和 body 老是能抓取到你须要的信息的。

HTTP Method

HTTP Method 告诉服务器对 URL 资源指望进行的操做。例如在打开一个 URL 的时候使用的是 GET 方式，而在提交数据的时候通常使用 POST。

TODO： need example here

HTTP Headers

HTTP Headers 是请求所带的一个参数列表，你能够在这里找到完整的经常使用 Headers 列表。一些经常使用的须要注意的有：

User-Agent

UA 是标识你使用的浏览器，或抓取程序的一段字符串。pyspider 使用的默认 UA 是 pyspider/VERSION (+http://pyspider.org/)。网站经常使用这个字符串来区分用户的操做系统和浏览器，以及判断对方是不是爬虫。因此在抓取的时候，经常会对 UA 进行假装。

在 pyspider 中，你能够经过 self.crawl(URL, headers={'User-Agent': 'pyspider'})，或者是 crawl_config = {'headers': {'User-Agent': 'xxxx'}} 来指定脚本级别的 UA。详细请查看 API 文档。

Referer

Referer 用于告诉服务器，你访问的上一个网页是什么。经常被用于防盗链，在抓取图片的时候可能会用到。

X-Requested-With

当使用 XHR 发送 AJAX 请求时会带上的 Header，常被用于判断是否是 AJAX 请求。例如在北邮人论坛中，你须要：

pythondef on_start(self):
        self.crawl('http://bbs.byr.cn/board/Python',
                   headers={'X-Requested-With': 'XMLHttpRequest'},
                   callback=self.index_page)

带有 headers={'X-Requested-With': 'XMLHttpRequest'} 才能抓取到内容。

HTTP Cookie

虽然 Cookie 只是 HTTP Header 中的一个，可是由于很是重要，可是拿出来讲一下。Cookie 被 HTTP 请求用来区分、追踪用户的身份，当你在一个网站登陆的时候，就是经过写入 Cookie 字段来记录登陆状态的。

当遇到须要登陆的网站，你须要经过设置 Cookie 参数，来请求须要登陆的内容。Cookie 能够经过开发者工具的请求面板，或者是资源面板中得到。在 pyspider 中，你也可使用 response.cookies 得到返回的 cookie，并使用 self.crawl(URL, cookie={'key': 'value'}) 来设置请求的 Cookie 参数。

原文：http://blog.binux.me/2015/01/pyspider-tutorial-level-2-ajax-and-more-http/

1. Pyspider 爬虫教程
2. Pyspider爬虫教程
3. PySpider 爬虫系统
4. 爬虫框架pyspider
5. pyspider 爬虫教程（一）：HTML 和 CSS 选择器
6. pyspider爬虫教程(1)：HTML和CSS选择
7. 网络爬虫08: PySpider爬虫框架
8. pyspider爬虫框架(增量爬虫)
9. Python-爬虫框架Pyspider
10. python增量爬虫pyspider
更多相关文章...
• HTTP 教程 - HTTP 教程
• XLink 和 XPointer 教程 - XLink 和 XPointer 教程
• Github 简明教程
• YAML 入门教程