Python实战异步爬虫(协程)+分布式爬虫(多进程)

时间 2019-12-06

原文原文链接

引言：咱们在写爬虫时常会遇到这样的问题，当须要爬取多个URL时，写一个普通的基于requests库的爬虫程序爬取时间会很长。由于是顺序请求网页的，而网页请求和得到响应过程比较耗费时间，程序不得不等待得到当前网页响应后才能进行下一个URL的爬取，使得总耗时较多。对于这样的多任务，可使用基于多进程(multiprocessing)和基于Asyncio库的异步(协程)爬虫加强并发性，加速爬虫。php T

>>阅读原文<<