Scrapy常见问题(FAQ)

时间 2019-11-06 标签 scrapy 常见问题 faq

常见问题(FAQ)

Scrapy相BeautifulSoup或lxml比较,如何呢？

BeautifulSoup 及 lxml 是HTML和XML的分析库。Scrapy则是编写爬虫，爬取网页并获取数据的应用框架(application framework)。html

Scrapy提供了内置的机制来提取数据(叫作选择器(selectors))。但若是您以为使用更为方便，也可使用 BeautifulSoup (或 lxml)。总之，它们仅仅是分析库，能够在任何Python代码中被导入及使用。python

换句话说，拿Scrapy与 BeautifulSoup (或 lxml) 比较就好像是拿 jinja2 与 Django 相比。git

Scrapy支持那些Python版本？

Scrapy仅仅支持Python 2.7。 Python2.6的支持从Scrapy 0.20开始被废弃了。github

Scrapy支持Python 3么？

不。可是Python 3.3+的支持已经在计划中了。如今，Scrapy支持Python 2.7。web

参见shell

Scrapy支持那些Python版本？.django

Scrapy是否从Django中”剽窃”了X呢？

也许吧，不过咱们不喜欢这个词。咱们认为 Django 是一个很好的开源项目，同时也是一个很好的参考对象，因此咱们把其做为Scrapy的启发对象。json

咱们坚信，若是有些事情已经作得很好了，那就不必再重复制造轮子。这个想法，做为开源项目及免费软件的基石之一，不只仅针对软件，也包括文档，过程，政策等等。因此，与其自行解决每一个问题，咱们选择从其余已经很好地解决问题的项目中复制想法(copy idea) ，并把注意力放在真正须要解决的问题上。api

若是Scrapy能启发其余的项目，咱们将为此而自豪。欢迎来抄(steal)咱们！浏览器

Scrapy支持HTTP代理么？

是的。(从Scrapy 0.8开始)经过HTTP代理下载中间件对HTTP代理提供了支持。参考HttpProxyMiddleware.

如何爬取属性在不一样页面的item呢？

参考 Passing additional data to callback functions.

Scrapy退出，ImportError: Nomodule named win32api

这是个Twisted bug ，您须要安装 pywin32 。

我要如何在spider里模拟用户登陆呢?

参考使用FormRequest.from_response()方法模拟用户登陆.

Scrapy是以广度优先仍是深度优先进行爬取的呢？

默认状况下，Scrapy使用 LIFO 队列来存储等待的请求。简单的说，就是深度优先顺序。深度优先对大多数状况下是更方便的。若是您想以广度优先顺序进行爬取，你能够设置如下的设定:

DEPTH_PRIORITY = 1SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'

个人Scrapy爬虫有内存泄露，怎么办?

参考调试内存溢出.

另外，Python本身也有内存泄露，在 Leaks without leaks 有所描述。

如何让Scrapy减小内存消耗?

参考上一个问题

我能在spider中使用基本HTTP认证么？

能够。参考 HttpAuthMiddleware.

为何Scrapy下载了英文的页面，而不是个人本国语言？

尝试经过覆盖 DEFAULT_REQUEST_HEADERS 设置来修改默认的 Accept-Language 请求头。

我能在哪里找到Scrapy项目的例子？

参考例子.

我能在不建立Scrapy项目的状况下运行一个爬虫(spider)么？

是的。您可使用 runspider 命令。例如，若是您有个 spider写在 my_spider.py 文件中，您能够运行:

scrapy runspider my_spider.py

详情请参考 runspider 命令。

我收到了 “Filtered offsite request” 消息。如何修复？

这些消息(以 DEBUG 所记录)并不意味着有问题，因此你能够不修复它们。

这些消息由Offsite Spider中间件(Middleware)所抛出。该(默认启用的)中间件筛选出了不属于当前spider的站点请求。

更多详情请参见: OffsiteMiddleware.

发布Scrapy爬虫到生产环境的推荐方式？

参见 Scrapyd.

我能对大数据(large exports)使用JSON么？

这取决于您的输出有多大。参考 JsonItemExporter 文档中的这个警告

我能在信号处理器(signal handler)中返回(Twisted)引用么？

有些信号支持从处理器中返回引用，有些不行。参考内置信号参考手册(Built-in signals reference)来了解详情。

reponse返回的状态值999表明了什么?

999是雅虎用来控制请求量所定义的返回值。试着减慢爬取速度，将spider的下载延迟改成 2 或更高:

class MySpider(CrawlSpider):

    name = 'myspider'

    download_delay = 2

    # [ ... rest of the spider code ... ]

或在 DOWNLOAD_DELAY 中设置项目的全局下载延迟。

我能在spider中调用 `pdb.set_trace()` 来调试么？

能够，但你也可使用Scrapy终端。这能让你快速分析(甚至修改) spider处理返回的返回(response)。一般来讲，比老旧的 pdb.set_trace() 有用多了。

更多详情请参考在spider中启动shell来查看response.

将全部爬取到的item转存(dump)到JSON/CSV/XML文件的最简单的方法?

dump到JSON文件:

scrapy crawl myspider -o items.json

dump到CSV文件:

scrapy crawl myspider -o items.csv

dump到XML文件:

scrapy crawl myspider -o items.xml

更多详情请参考 Feed exports

在某些表单中巨大神秘的 `__VIEWSTATE` 参数是什么？

__VIEWSTATE 参数存在于ASP.NET/VB.NET创建的站点中。关于这个参数的做用请参考这篇文章。这里有一个爬取这种站点的样例爬虫。

分析大XML/CSV数据源的最好方法是?

使用XPath选择器来分析大数据源可能会有问题。选择器须要在内存中对数据创建完整的 DOM树，这过程速度很慢且消耗大量内存。

为了不一次性读取整个数据源，您可使用 scrapy.utils.iterators 中的 xmliter 及 csviter 方法。实际上，这也是feed spider(参考 Spiders)中的处理方法。

Scrapy自动管理cookies么？

是的，Scrapy接收并保持服务器返回来的cookies，在以后的请求会发送回去，就像正常的网页浏览器作的那样。

更多详情请参考 Requests and Responses 及 CookiesMiddleware 。

如何才能看到Scrapy发出及接收到的Scrapy呢？

启用 COOKIES_DEBUG 选项。

要怎么中止爬虫呢?

在回调函数中raise CloseSpider 异常。更多详情请参见: CloseSpider 。

如何避免个人Scrapy机器人(bot)被禁止(ban)呢？

参考避免被禁止(ban).

我应该使用spider参数(arguments)仍是设置(settings)来配置spider呢？

spider参数及设置(settings) 均可以用来配置您的spider。没有什么强制的规则来限定要使用哪一个，但设置(settings)更适合那些一旦设置就不怎么会修改的参数，而spider参数则意味着修改更为频繁，在每次spider运行都有修改，甚至是spider运行所必须的元素 (例如，设置spider的起始url)。

这里以例子来讲明这个问题。假设您有一个spider须要登陆某个网站来爬取数据，而且仅仅想爬取特定网站的特定部分(每次都不必定相同)。在这个状况下，认证的信息将写在设置中，而爬取的特定部分的url将是spider参数。

我爬取了一个XML文档可是XPath选择器不返回任何的item

也许您须要移除命名空间(namespace)。参见移除命名空间.

我获得错误: “不能导入name crawler“

这是因为Scrapy修改，去掉了单例模式(singletons)所引发的。这个错误通常是由从 scrapy.project导入 crawler 的模块引发的(扩展，中间件，pipeline或spider)。例如:

from scrapy.project import crawlerclass SomeExtension(object):
    def __init__(self):
        self.crawler = crawler
        # ...

这种访问crawler对象的方式已经被舍弃了，新的代码应该使用 from_crawler 类方法来移植，例如:

class SomeExtension(object):

    @classmethod
    def from_crawler(cls, crawler):
        o = cls()
        o.crawler = crawler
        return o

Scrapy终端工具(command line tool)针对旧的导入机制提供了一些支持(给出了废弃警告)，但若是您以不一样方式使用Scrapy(例如，做为类库)，该机制可能会失效。