分布式爬虫（一）------------------分布式爬虫概述

时间 2019-12-10

标签分布式爬虫概述栏目系统架构繁體版

原文原文链接

分布式爬虫概述

什么是分布式爬虫：

　　　　　多个爬虫分布在不一样的服务器上，经过状态管理器进行统一调度，达到像URL去重等功能的爬虫系统数据库

　　

分布式爬虫的优势

　　1）充分利用多台机器的宽带加速服务器

　　2）充分利用多机器的IP加速爬取速度架构

Scrapy分布式爬虫原理

　　　　单机Scrapy爬虫架构

　　

分布式爬虫须要改进的Scrapy

　　　　1）requests队列集中管理（在架构图中SCHEDULER中管理）

　　　　2）URL去重集中管理　　

　　　 解决方法：分布式

　　　　　　requests队列存储在单机的内存当中，URL去重原理也是存储在内存当中的Set()集合中，解决这两个问题，blog

　　　　能够将这个队列和集合存储在数据库中，进行统一的资源管理。队列

　　　　　　在选择数据库时推荐使用Redis数据库，它是一个基于内存的数据库，将Requests队列和URL集合存储在内存，避免数据落地，提升效率内存

相关文章

相关标签/搜索

爬虫－反爬虫

分布式环境

分布式编程

分布式事务

分布式缓存

Docker命令大全

代码格式化

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<