有时候爬的次数太多时ip容易被禁,因此须要ip代理的帮助。
今天爬的思路是:到云代理获取大量ip代理,逐个检测,将超时不可用的代理排除,留下优质的ip代理。html
首先看看今天要爬取的网址浏览器
首先判断网址是动态网址仍是静态网址,静态网址就是直接能经过翻页从网址里找到页码,如下是每页的网址:bash
因此推出是静态网址,每页page递增1的规律网络
今天打算用xpath来解析数据,首先打开F12,能够看到每条代理的信息都包裹在tr中,所以咱们能够先经过tr获取所有信息,再遍历tr里的ip,端口和类型
app
附上完整代码和详细注释学习
运行效果以下:
网站
这个网站一次爬取次数多了,浏览器代理(headers)容易挂,换个浏览器代理便可。ui
本文的文字及图片来源于网络,仅供学习、交流使用,不具备任何商业用途,若有问题请及时联系咱们以做处理
url
想要获取更多Python学习资料能够加
QQ:2955637827私聊
或加Q群630390733
你们一块儿来学习讨论吧!spa