在上一篇文章《一篇文章了解爬虫技术现状》中,咱们总结了目先后台爬虫所面临的交互困难、javascript解析麻烦、以及ip限制三大问题。本期,咱们不妨换一种思路来从新思考,说不定会别开生面、柳暗花明。javascript
书接上文,咱们说明了目先后台爬虫所面临的三大问题,此三点对于后台爬虫来讲基本条条都是硬伤,固然,如今有些网站安全性考虑的不够,安全策略并不是太过复杂,在有些场景下,对后端爬虫来讲不至于会致命,可是,一旦有个新的需求遇到了这三座大山的其中一个,那将会是很麻烦的一件事。既然如此,在穷途陌路的时候,咱们何不换个思路?前端
山重水复疑无路,柳暗花明又一村,千呼万唤始出来,蓦然回首,犹抱琵琶半遮面!java
障碍,不必定非得正面跨过去,有时候,绕过去会更容易。android
上文中咱们提到,后台爬虫说面临的第一座大山就是交互困难。可是,不是全部的网页都会有复杂的交互,其实,和爬虫(会对爬取结果产生重要影响)相关90%的网页交互都是验证码!而这些验证码一般都在登陆页。好比咱们要爬取某人的全部微博评论、qq空间留言、邮件列表等等。对于这些场景,咱们爬虫必需要进行登陆,不然没法获取内容。而对于搜索引擎的爬虫来讲,这些内容是没有必要的,百度谷歌不可能取爬取用户这些信息。也就是说,不管是在怎样的需求场景下,咱们遇到这种交互问题以前,都是都是须要用户告诉咱们用户明和密码,而后咱们再去爬,而后才能遇到验证码问题。因此,这种需求场景必然有个用户受权/登陆的过程,那么在大家的产品当中,通常的交互会是这样:产品中会提供一个让用户受权/登陆页面,用户受权/登陆后,将帐户信息加密发送到后台,后台拿到帐户信息后,启动爬虫去尝试登陆,若是遇到验证码,后台再返回给端上,由用户手动完成,而后后台获取到用户输入的验证码(能够是一组操做值),再继续进行登陆验证,这样才能完成整个流程,你们想一想12306的抢票软件的流程,正是如此。可见这样的产品交互是很复杂的。好了,咱们总结一下,遇到这种状况的本质缘由是爬虫在执行过程当中须要用户经过端(app或网页)进行手动受权,而受权的过程须要端和后台一次或屡次交互。ios
其实,这是最容易得出结论的一个问题,咱们稍加思考,就会意识到,只要爬取是在后台进行,那么ip就永远有限,这个问题就不可能完全解决!程序员
行文至此,今天要介绍的主角已经呼之欲出了,想必你也已经猜到了。在揭开它面纱以前咱们先来看看近几年业务需求发生的变化。ajax
众所周知,近年来随着P2P的快速发展,互联网金融更是处于风口浪尖,这个万亿级的市场,吸引了一大批公司,像蚂蚁金服、陆金所、爱钱进、理财通、百度金融等等。而互联网金融的本质主要是风险控制、因此一个强大征信平台相当重要。从业务角度来看,互联网金融公司通常都会分为两块:资产端和资金端,也就是贷款方和投资方,而这里最具风险的就是对贷款方的资质审核,这和传统的金融没什么区别,而所谓互联网金融,无非是将认证流程提到了线上,借款时经过相应平台的的app完成。而认证流程每每须要获取用户信息,如信用卡代还的借款须要爬取用户信用卡帐单邮箱、通话记录,有的甚至要爬支付宝交易记录、京东淘宝购买记录等等,这些都是须要用户受权/登陆的,而这些网站一般为了安全期间,对ip请求的次数、频率都有着严格的限制,这致使传统的后台爬虫不能胜任,此时急需一种新的解决方案。后端
通过以前的诸多铺垫,换个思路想一想,若是能在用户端完成数据获取,像后台爬虫面临的三座大山还会存在吗?对于ip限制,因为数据获取是在用户端完成的,咱们每个用户的ip能够大体认为是不一样的,那么ip限制则不攻自破;对于动态验证,须要爬取用户登陆后的信息时,咱们确定须要用户受权,因此对于验证码,咱们能够引导用户本身操做,而无需和后台进行交互;而对于javascript解析的问题,若是爬取是在客户端进行,那么咱们可否引入浏览器的javascript虚拟机呢?可不能够用v8? 若是能够,那么咱们的爬取脚本是否是也能用javascript去写?若是能够,那么咱们的爬取脚本中是否是能够用jQuery解析网页,直接发起ajax请求?若是能够,那怎一个爽字了得,不可能有比这更容易的写的爬虫了!今后,javascript真的要一统天下了呀,好可怕。。。浏览器
换个行!咱们平复一下激动的心情!安全
好,咱们回过头来看一下,若是采用客户端方案,以前后台遇到到的三大问题是否均可以解决。
事无巨细,咱们先关注如下几点:
脚本放在哪
传统后台爬取的程序是在后台,若是目标网站发生变化,能够随时更新爬取程序。但客户端爬取将会有问题,爬取脚本保存在客户端,那么就麻烦了。看来脚本是不能保存在端上,那么必须有一套脚本下发、更新的机制。
如何进行错误收集
若是目标网站发生变化致使咱们脚本不能正常工做或抛出异常,若是是在后台,咱们能够有服务器打点、报警等及时发现处理,若是在端上咱们应该如何及时应对错误?
如何进行版本管理
版本管理分为爬取脚本版本和sdk版本,脚本支持的sdk版本范围如何匹配?
怎么写脚本
用什么语言?如何控制爬取流程?如何和端通讯?
综上所述,下面,咱们想一想,一个完整、友好的、理想的的客户端爬取平台应该是什么样子的。
本文本想打算直接介绍客户端爬取平台,但我以为在介绍新的事物以前应该要弄明白缘起,只有了解了它的诞生环境,才能更好的理解它的价值。下一篇咱们将隆重介绍全球第一个开放的客户端爬取平台。如依然有兴趣,敬请关注。
本文章容许免费转载,但请注明原做者及原文连接。