当spider发出请求以后会返回response。response是一个类,其中包括一些内置的属性。html
bodyscrapy
response.body.decode(response.encoding)ide
例如: response.body.decode(‘gbk’)编码
当抓取网页时,你作的最多见的任务是从HTML源码中提取数据。Scrapy选择器构建于 lxml 库之上,这意味着它们在速度和解析准确性上很是类似。Scrapy selector是以文字(text)或TextResponse构造的Selector实例。spa
class scrapy.selector.Selector(response=None, text=None, type=None)code
response经过选择器Selector做用后,再经过处理(如XPath)后获得的数据都是Unicode的形式xml
sel = Selector(response)htm
例子:对象
>>> from scrapy.selector import Selector
>>> from scrapy.http import HtmlResponseutf-8>>> body = ‘good’ >>> Selector(text=body).xpath(‘//span/text()’).extract() >>> [u’good’]