12scrapy_redis

一.简介

1.redis

redis是一个key-value存储系统。和Memcached相似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。html

redis会周期性的把更新的数据写入磁盘或者把修改操做写入追加的记录文件,而且在此基础上实现了master-slave(主从)同步。git

2.github地址

https://github.com/rmax/scrapy-redisgithub

3.为何学习redis

Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体如今:reqeust去重,爬虫持久化,和轻松实现分布式。redis

二.爬虫过程

 

 

三.使用

1.经常使用命令

 

中文文档       http://www.redis.cn/commands.htmldom

2.代码

 

3.源码

git clone https://github.com/rolando/scrapy-redis.gitscrapy

三.源码

1.domz

 

 

执行domz的爬虫,会发现redis中多了一下三个键:分布式

 

变化结果:ide

       dmoz:requests 有变化(变多或者变少或者不变)学习

       dmoz:dupefilter 变多3d

       dmoz:items 不变

变化结果分析:

       redispipeline中仅仅实现了item数据存储到redis的过程,咱们能够新建一个pipeline(或者修改默认的ExamplePipeline),让数据存储到任意地方

2.RedisPipeline

 

 

3. RFPDupeFilter

 

4. Scheduler

 

 

四.在项目中使用

1.RedisSpider

 

 

 

2. RedisCrawlSpider

 

五. Crontab爬虫定时执行

1.安装及介绍

 

 

2.执行步骤

 

相关文章
相关标签/搜索
本站公众号
   欢迎关注本站公众号,获取更多信息