异步爬虫

异步爬虫 以往写爬虫就是单进程单线程,假设要爬取100哥页面,就是一个循环挨个爬。可是要执行下面一条抓取,就须要等待网络IO请求执行完毕,因此效率就不高了。 一开始处理的数据不大,还意识不到,若是要爬取上万个页面,差距立刻就能凸显了。 因此爬虫必需要并发执行,异步编程。 在python中并发编程,有三种途径:多进程,多线程和协程。固然这三者还能够组合使用,好比多进程+多线程。 因为存在GIL锁,因
相关文章
相关标签/搜索