scrapy简单分布式爬虫

虽然scrapy能作的事情不少,可是要作到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度,将起始的网址从start_urls里分离出来,改成从redis读取,多个客户端能够同时读取同一个redis,从而实现了分布式的爬虫。就算在同一台电脑上,也能够多进程的运行爬虫,在大规模抓取的过程当中很是有效。html 准备:python 一、windows一台(从:scrapy)linux
相关文章
相关标签/搜索