scrapy简单分布式爬虫

时间 2020-01-15

原文原文链接

虽然scrapy能作的事情不少，可是要作到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度，将起始的网址从start_urls里分离出来，改成从redis读取，多个客户端能够同时读取同一个redis，从而实现了分布式的爬虫。就算在同一台电脑上，也能够多进程的运行爬虫，在大规模抓取的过程当中很是有效。html 准备：python 一、windows一台(从：scrapy)linux

>>阅读原文<<