clone github scrapy-redis源码文件css
git clone https://github.com/rolando/scrapy-redis.git
git
研究项目自带的demogithub
mv scrapy-redis/example-project ~/scrapyredis-project
redis
在domz爬虫文件中,实现方式就是以前的crawlspider
类型的爬虫bash
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DmozSpider(CrawlSpider):
"""Follow categories and extract links."""
name = 'dmoz'
allowed_domains = ['dmoztools.net']
start_urls = ['http://dmoztools.net/'] # 这里修改了url
# 定义数据提取规则,使用了css选择器
rules = [
Rule(LinkExtractor(
restrict_css=('.top-cat', '.sub-cat', '.cat-item')
), callback='parse_directory', follow=True),
]
def parse_directory(self, response):
for div in response.css('.title-and-desc'):
yield {
'name': div.css('.site-title::text').extract_first(),
'description': div.css('.site-descr::text').extract_first().strip(),
'link': div.css('a::attr(href)').extract_first(),
}
复制代码
可是在settings.py中多了如下内容,这几行表示scrapy_redis
中从新实现的了去重的类,以及调度器,而且使用RedisPipeline
管道类框架
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
ITEM_PIPELINES = {
'example.pipelines.ExamplePipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 400,
}
复制代码
REDIS_URL = "redis://127.0.0.1:6379"
#或者使用下面的方式
# REDIS_HOST = "127.0.0.1"
# REDIS_PORT = 6379
复制代码
继续执行程序,会发现程序在前一次的基础之上继续日后执行,因此domz爬虫是一个基于url地址的增量式的爬虫dom
咱们从settings.py中的三个配置来进行分析 分别是:scrapy
RedisPipeline中观察process_item,进行数据的保存,存入了redis中分布式
RFPDupeFilter 实现了对request对象的加密ide
scrapy_redis调度器的实现了决定何时把request对象加入带抓取的队列,同时把请求过的request对象过滤掉
改写网易招聘爬虫,该爬虫就是一个经典的基于url地址的增量式爬虫
打开example-project项目中的myspider_redis.py文件
经过观察代码:
__init__
方法,该方法不是必须的,能够手动指定allow_domainsscrapy crawl 爬虫名
,使该节点的scrapy_redis爬虫程序就位lpush redis_key 'start_url'
,使所有节点真正的开始运行DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
ITEM_PIPELINES = {
'example.pipelines.ExamplePipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 400,
}
REDIS_URL = "redis://127.0.0.1:6379"
复制代码
改写tencent爬虫为分布式爬虫
scrapy_redis的含义和可以实现的功能
scrapy_redis流程和实现原理
request对象进入队列的条件
request指纹的实现
scarpy_redis实现增量式爬虫、布式爬虫
scrapy crawl spider
启动爬虫后,向redis_key放入一个或多个起始url(lpush或rpush均可以),才可以让scrapy_redis爬虫运行