Python实战异步爬虫(协程)+分布式爬虫(多进程)

时间 2021-01-09

原文原文链接

引言：我们在写爬虫时常会遇到这样的问题，当需要爬取多个URL时，写一个普通的基于requests库的爬虫程序爬取时间会很长。因为是顺序请求网页的，而网页请求和获得响应过程比较耗费时间，程序不得不等待获得当前网页响应后才能进行下一个URL的爬取，使得总耗时较多。对于这样的多任务，可以使用基于多进程(multiprocessing)和基于Asyncio库的异步(协程)爬虫增强并发性，加速爬虫。 Tal

>>阅读原文<<