Crawl Spider 模板的使用

时间 2019-11-13

标签 crawl spider 模板使用繁體版

原文原文链接

1.Spider模板

scrapy默认建立的spider模板就是basic模板，建立spider文件的命令是：scrapy genspider dribbble dribbble.com，查看spider模板的命令是：scrapy genspider --list；css
在项目中明确指明使用crawl生成模板生成spider的命令是：scrapy genspider -t crawl csdn www.csdn.net ；html

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsdnSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider类介绍

CrawlSpider是Spider的派生类，目的是对全站信息爬取更加简单，爬取那些具备必定规则网站的经常使用的爬虫，它基于Spider并有一些独特属性；

3.rules规则列表

语法：Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)，rules是Rule对象的集合，用于匹配目标网站并排除干扰；正则表达式
link_extractor：是一个LinkExtractor对象，其定义了如何从爬取到的页面提取连接；dom
callback：从link_extractor中每获取到连接获得Responses时，会调用参数所指定的值做为回调函数，该回调函数接收一个response做为其一个参数；scrapy
cb_kwargs：用于做为**kwargs参数，传递给callback；ide
follow：是一个布尔值，指爬取了以后，是否还继续从该页面提取连接，而后继续爬下去, 默认是False；函数
process_links：指定spider中哪一个的函数将会被调用，从link_extractor中获取到连接列表时将会调用该函数。该方法主要用来过滤；网站
process_request：指定处理函数，根据该Rule提取到的每一个Request时，该函数将会被调用，能够对Request进行处理，该函数必须返回Request或者None；url

4.LinkExtractors

LinkExtractors 的目的是提取连接，每一个LinkExtractor有惟一的公共方法是extract_links()，它接收一个 Response对象，并返回一个scrapy.link.Link对象；.net
Link Extractors要实例化一次，而且 extract_links 方法会根据不一样的 response 调用屡次提取连接；

主要参数：

allow：知足括号中”正则表达式”的值会被提取，若是为空，则所有匹配；
deny：与这个正则表达式(或正则表达式列表)不匹配的url必定不提取；
allow_domains：会被提取的链接的；
deny_domains：必定不会被提取连接的domains；
restrict_xpaths：使用xpath表达式，和allow共同做用过滤连接；

5.爬取CSDN的文章, 且提取URL和文章标题

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定连接提取的规律
    rules = (
        # follow:是指爬取了以后，是否还继续从该页面提取连接，而后继续爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h1::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

参考：https://www.9xkd.com/user/plan-view.html?id=3716132715