关于爬虫与反爬虫简略方案

像安全与黑客历来都是相辅相成同样。
爬虫与反爬虫也是在双方程序员的斗智斗勇的过程不断发展和成长的。html

抓包

抓包的目的: 分析出协议请求使用的数据,请求接口,参数等等。
经常使用的抓包分析工具:程序员

  • Fiddler
  • Charles
  • Sniffer
  • Wireshark

具体使用策略,请自行百度,Google。apache

抓数据

使用 HttpClient 模拟请求

充分了解 HttpClient 的特性,使用方式等。
HttpClient4.5官方教程安全

user_agent 的使用

使用 user_agent 的假装和轮换模拟不一样的客户端。
创建UserAgent池,能够经过如下地址获取必定量的UserAgent的信息。cookie

http://www.fynas.com/ua/search?b=Chrome&k=

代理IP的使用

创建代理ip池,通常使用的免费或收费代理获取代理ip每秒都会有必定的频率限制。
那么咱们在使用的时候,就要在频率限制内创建本身内部的一些策略,
固然这些策略创建在代理服务商的策略之上。所以设计实施时要考虑易维护性。工具

http代理

有些网站(包括APP、PC)具备必定的反爬虫能力,
如拒绝代理ip直接请求接口:
这是我使用代理ip请求登陆接口时,某APP的响应:网站

CONNECT refused by proxy

而使用socks代理则无此问题。这就不得不要了解http代理和socks代理的区别。设计

socks代理

待续代理

设置访问频率

即使是使用了代理ip,那么对目标接口的访问也要有必定的频率控制,
防止目标服务方检测出频率过快,进行拒绝服务的响应。code

获取目标站点Cookie有效时间,
将对应帐号和Cookie存入Redis,
起一个任务对帐号Cookie进行定时检测,
接近失效时间,进行提早更新Cookie信息,

具体Cookie 池Cookie的失效和更新策略须要根据本身业务进行适当调整。

防止目标方的分析

  • 确保同一帐号的请求使用的是同一个UserAgent、同一个代理ip。
  • 注意访问频率
  • 其余

总而言之,就是模拟正常的客户端发起对服务方的请求,假装的越像正常的客户端,服务方越难分析出。

只要是服务方可以提供服务,通常状况下均可以进行数据的爬取,
只不过是难易程度不一样。
若是出于商业目的,要考虑付出的成本究竟是否合适。


做者:随风浮云
出处:http://www.cnblogs.com/ljmatlight 本文版权归做者全部,欢迎转载,但未经做者赞成必须保留此段声明, 且在文章页面明显位置给出原文链接,不然保留追究法律责任的权利。

相关文章
相关标签/搜索