咱们知道若是想要爬取网站的数据须要在spiders文件中建立一个蜘蛛,建立后这个蜘蛛中会自动生成一个类,类名也是由蜘蛛名加Spider组成,如上一节中爬去csdn网站生成的:CsdnSpider
类,这个类中的name
也就是蜘蛛的名称,allowed_domains
是容许爬取网站的域名,start_urls
是须要爬取的目标网站的网址,若是须要更改爬取的目标页面,只须要修改start_urls
就能够了;css
import scrapy class CsdnSpider(scrapy.Spider): name = 'csdn' allowed_domains = ['www.csdn.net'] start_urls = ['http://www.csdn.net/'] def parse(self, response): pass
parse(self,response)
方法中使用response对象来对css选择器获取到的a元素的href值进行解析,如response.css('h2 a::attr(href)').extract()
,这样就能够获得一个url地址的列表;import scrapy class CsdnSpider(scrapy.Spider): name = 'csdn' allowed_domains = ['www.csdn.net'] start_urls = ['http://www.csdn.net/'] def parse(self, response): urls = response.css('.company_list .company_name a::attr(href)').extract() print(urls)
parse.urljoin()
方法拼接页面连接,另外一个是callback回调函数。这个回调函数是咱们本身定义的,也会传递一个response对象,经过这个response对象对css选择器获取的元素进行解析,这样咱们就能够拿到每一个解析页面的标题内容了;html
import scrapy from scrapy.http import Request from urllib import parse class CsdnSpider(scrapy.Spider): name = 'csdn' allowed_domains = ['www.csdn.net'] start_urls = ['http://www.csdn.net/'] def parse(self, response): # 获取url urls = response.css('.company_list .company_name a::attr(href)').extract() # print(urls) # 解析页面 for url in urls: yield Request(url = parse.urljoin(response.url, url), callback=self.parse_analyse, dont_filter=True) # 回调函数 def parse_analyse(self, response): title = response.css('.company_list .company_name a::text').extract_first() print(title)
class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8',priority=0, dont_filter=False, errback])
,一个request对象表明一个HTTP请求,一般由Spider产生,经Downloader执行从而产生一个Response;cookie
url
:用于请求的URL;dom
callback
:指定一个回调函数,该回调函数以这个request是的response做为第一个参数,若是未指定callback则默认使用spider的parse()方法;scrapy
method
: HTTP请求的方法,默认为GET;ide
headers
:请求的头部;函数
body
:请求的正文,能够是bytes或者str;网站
cookies
:请求携带的cookie;编码
meta
:指定Request.meta属性的初始值,若是给了该参数,dict将会浅拷贝;url
encoding
:请求的编码, 默认为utf-8;
priority
:优先级,优先级越高,越先下载;
dont_filter
:指定该请求是否被 Scheduler过滤,该参数可使request重复使用;
errback
:处理异常的回调函数;