IP代理池的Python实现

爬虫采集数据时,若是频繁的访问某个网站,会被封IP,有些是禁止访问3小时,有些是直接拉黑名单。为了不被禁,通常采起的措施有三种:html 放慢抓取的速度,设置一个时间间隔; 模拟浏览器行为,如采用Selenium + PhantomJS; 设置IP代理,按期更换代理IP,让网站不认为来自一个IP。 本文实现其中的第三种方法。 国内提供IP代理的网站有不少,咱们以其中的一个为例:http://www
相关文章
相关标签/搜索