redis是一个key-value存储系统。和Memcached相似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。html
redis会周期性的把更新的数据写入磁盘或者把修改操做写入追加的记录文件,而且在此基础上实现了master-slave(主从)同步。git
https://github.com/rmax/scrapy-redisgithub
Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体如今:reqeust去重,爬虫持久化,和轻松实现分布式。redis
中文文档 http://www.redis.cn/commands.htmldom
git clone https://github.com/rolando/scrapy-redis.gitscrapy
执行domz的爬虫,会发现redis中多了一下三个键:分布式
变化结果:ide
dmoz:requests 有变化(变多或者变少或者不变)学习
dmoz:dupefilter 变多3d
dmoz:items 不变
变化结果分析:
redispipeline中仅仅实现了item数据存储到redis的过程,咱们能够新建一个pipeline(或者修改默认的ExamplePipeline),让数据存储到任意地方