python3多线程爬虫实现异步更新代理池

这几天要搞毕业设计,一个简单的大数据分析系统,既然是大数据分析系统,那么必定要有数据,目标是用python写一个爬虫,爬大约100w条数据html 这就遇到了第一个问题,100w条数据单线程的话须要爬好久,因此要用多线程获取,这又会有一个新问题,爬取频率太高的话会被封ip,因此要使用https代理(貌似http不行,会被查出来) 而后又出现一个问题,免费的代理稳定性太差,并且访问速度慢,本身写了个
相关文章
相关标签/搜索