关于在使用scrapy-redis分布式踩过的那些坑：

时间 2019-12-11

标签关于在使 scrapy redis 分布式那些栏目 Python 繁體版

原文原文链接

本身的案列：win7上安装ubuntu (win7做为slaver,ubuntu做为master )redis

修改配置文件redis.conf数据库

1)打开配置文件把下面对应的注释掉

# bind 127.0.0.1 ubuntu

2)Redis默认不是以守护进程的方式运行，能够经过该配置项修改，设置为no

daemonize no网络

3)保护模式

protected-mode no dom

关键的一步：ubuntu终端命令中重启redis服务的时候以下操做：ide

redis-server redis.confurl

在win7上安装RedisDesktopManage查看ubuntur Redis数据库（链接方法：完成以上1，2，3便可链接注意：ubuntu的网络适配器要选择桥接模式。）spa

在编写爬虫的时候：server

发现这样写域名的范围会报错（在ubuntu中push url后爬虫没有爬取数据）：blog

#动态域范围的获取
def __init__(self, *args, **kwargs):
 # Dynamically define the allowed domains list.
 domain = kwargs.pop('domain', '')
 self.allowed_domains = filter(None, domain.split(','))
 super(MySpider, self).__init__(*args, **kwargs)

而这样写不会报错：

allowed_domains = ["xxx.com"]

在爬虫的settings.py中指明主机地址以及端口号

如：

REDIS_HOST = 'x.x.x.x' 主机地址(ubuntu IP地址）
REDIS_PORT = 6379