爬虫Scrapy框架之css选择器使用

时间 2019-11-11

标签爬虫 scrapy 框架 css 选择器使用栏目网络爬虫繁體版

原文原文链接

css选择器介绍

在css中选择器是一种模式，用于选择须要添加样式的元素，css对html页面中的元素实现一对一，一对多或者多对一的控制，都须要用到css选择器，html页面中的元素就是经过css选择器进行控制的；

css选择器的基本语法

类选择器：元素的class属性，好比class="box"表示选取class为box的元素；css
ID选择器：元素的id属性，好比id="box"表示选取id为box的元素；html
元素选择器：直接选择文档元素，好比p表示选择全部的p元素，div表示选择全部的div元素；dom
属性选择器：选择具备某个属性的元素，如*[title]表示选择全部包含title属性的元素、a[href]表示选择全部带有href属性的a元素等；scrapy
后代选择器：选择包含元素后代的元素，如li a表示选取全部li 下全部a元素；ide
子元素选择器：选择做为某元素子元素的元素，如h1 > strong表示选择父元素为h1 的全部 strong 元素；工具
相邻兄弟选择器：选择紧接在另外一元素后的元素，且两者有相同父元素，如h1 + p表示选择紧接在 h1 元素以后的全部p元素；url

scrapy 中的css使用方法

以a元素来举例说明.net

response.css('a')：返回的是selector对象；插件
response.css('a').extract()：返回的是a标签对象；调试
response.css('a::text').extract_first()：返回的是第一个a标签中文本的值；
response.css('a::attr(href)').extract_first()：返回的是第一个a标签中href属性的值；
response.css('a[href*=image]::attr(href)').extract()：返回全部a标签中href属性包含image的值；
response.css('a[href*=image] img::attr(src)').extract()：返回全部a标签下image标签的src属性；

表达式书写方式	表达式意义
#box	选取id为box的元素
.box	选取class为box的元素
p	选择全部 p 元素
div img	选取div下的img元素
div,img	选择全部 div 元素和全部 img 元素
div#box	选取 id为box的div元素
div>p	选择父元素为 div 元素的全部 p 元素
[title~=flower]	选择 title 属性包含单词 "flower" 的全部元素
a[href="/page/2"]	选取href属性为/page/2的a元素
a[href^="/page"]	选取href属性以/page开头的a元素
a[href$=".png"]	选取href属性以png结尾的a元素

上一节中咱们使用XPATH选择器获取了csdn中今日推荐的标题，如今咱们用CSS选择器来试着获取一下

# -*- coding: utf-8 -*-
import scrapy
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']

    def parse(self, response):
       result = response.css('.company_list .company_name a::text').extract()
       for i in result:
           print(i)

咱们来看一下代码的运行结果，看是否能获取到咱们想要的信息；

获取元素的跳转连接和图片地址

首先能够使用css选择器提取元素的跳转连接和图片的src地址，这里须要用到urllib库中的parse.urljoin()方法，用它来拼接获取到的元素中的路径，使之变为绝对路径； urljoin(baes，url[,allow_frafments])，其中参数base做为基地址，与第二个参数为相对路径的url相结合，组成一个绝对URl地址，其中参数allow_fragments可根据本身的需求设置；

import scrapy
from urllib import parse
class DribbbleSpider(scrapy.Spider):
    name = 'dribbble'
    allowed_domains = ['dribbble.com']
    start_urls = ['http://dribbble.com/']
    def parse(self, response):
        a_href = response.css('.dribbble-shot .dribbble-over::attr(href)').extract_first("")
        href = parse.urljoin(response.url, a_href)
        print(a_href)
        print(href)

import scrapy
from urllib import parse
class DribbbleSpider(scrapy.Spider):
    name = 'dribbble'
    allowed_domains = ['dribbble.com']
    start_urls = ['http://dribbble.com/']
    def parse(self, response):
        image_src = response.css('img.enrique-image::attr(src)').extract_first("")
        src = parse.urljoin(response.url, image_src)
        print(image_src)
        print(src)

下载且保存图片到本地

import scrapy
from urllib import parse
import requests
class DribbbleSpider(scrapy.Spider):
    name = 'dribbble'
    allowed_domains = ['dribbble.com']
    start_urls = ['http://dribbble.com/']
    def parse(self, response):
        image_src = response.css('img.enrique-image::attr(src)').extract_first("")
        src = parse.urljoin(response.url, image_src)
        ret = requests.get(src, stream=True)
        with open('./1.png', 'wb') as f:
            for block in ret.iter_content(chunk_size=1024):
                f.write(block)

如何快速获取页面中的元素

获取xpath选择器的元素：选择标签->鼠标右键->copy->Copy XPath；

获取css选择器的元素：能够使用第三方插件Chrome的开发者调试工具获取，须要下载CSS Select插件->而后直接选择标签元素；

参考：https://www.9xkd.com/user/plan-view.html?id=3866229787