1、限制IP单位时间访问次数还有频率html
背景:没有哪一个常人一秒钟内能访问相同网站N次(不论是不是同一个网页)正则表达式
解决办法:通常遇到这种状况咱们就放缓采集频率,无论你写代码添加Sleep,或者在咱们八爪鱼里面设置间隔时间均可以解决浏览器
进化1:有些高级点的防采集策略,他甚至监控到每一个请求的频率,若是一直处于同一个频率,好比一秒一次,他也是会封。服务器
解决办法:这种状况通常就须要咱们在采集间隔里面加上随机数,每次访问的频率相对随机。网络
进化2:有些更残忍的防采集策略,他甚至会监控每IP天天或每时段请求网页的数量。由于他能够经过数据分析,知道大致上他真实的用户通常最多会访问他多少网页,若是超过,他也照样封。异步
解决办法:这种状况也就只有用多IP或者多服务器来解决了,虚拟出许多不一样的终端在访问,平摊访问资源。八爪鱼在这块也提供了代理IP池套餐与旗舰版云服务器集群来保障。大数据
2、验证码网站
背景:验证码天生就是一个识别你究竟是人仍是机器的神器人工智能
解决办法:加密
这一招是被用烂的一招,如今普通的验证码,即便加了混淆,均可以经过图像识别技术给破解了,因此市面就多了好多诡异的验证码,最经典的,应该算是12306的验证码了吧。可是再复杂的验证码,包括那些中文成语,中文加减乘除之类的,都是有破解之法。由于这世上还有打码平台在,就是一种人工帮你输入验证码的平台。
八爪鱼内置支持绝大多数验证码的破解,除了少数的一两种特别极端,如今满世界还找不到破解之法,其余都支持。
3、用户登陆带COOKIE才能访问网站内容
背景:经过账号来限制你访问的权限
解决办法:
普通的,咱们只须要经过八爪鱼采集进行登录操做,只要你能提供相对应的账号密码,八爪鱼能够进行模拟操做登录网站,你就能够进去获取数据了。若是你没有账号,那就一点办法都没有了。就像IT桔子,你没账号,你只能看到前1000条数据。你只有付费购买他们的SAAS账号,你才能看到更多数据。
进化一:即便有账号也无论用
解决办法:
就像京东的评论,你只能看到最新的1000条。这种时候就必须用上八爪鱼的定时采集,咱们进行某种频率的监控,一有新数据就立刻采集下来,保持跟进,保持积累。
4、利用JS加密网页内容
背景:经过浏览器的JS运算出网页内容结果
解决办法:
这种招术,在对付HTTP POST请求的时候,是一种增长复杂度与难度的招术。可是八爪鱼天生就是对抗这种,八爪鱼内置浏览器访问网页数据,在打开网页的时候就会去执行JS调用代码获取数据,而后再解析网页数据。因此自带JS运算,轻轻松松就把这种给绕过去了。
而通常经过代码或HTTP请求模式的爬虫技术,是怎么绕都绕不开这种,而经过写代码进行采集的同窗,他必须把JS加密给破解了。
5、连接随机化
背景:网站页面连接随机化,同一个页面有多个连接或根据不一样状况生成连接
解决办法:
这种状况,通常要求咱们从源头开始访问,模拟人访问,好比从首页,进入到列表,再到内容页。他内页连接随机化,首页地址总不能随机吧。这种只要以不变应万变,便可破解。
进化1:利用脚本生成分页地址
这种状况,在八爪鱼浏览器面前,也是一点效力都没有。由于八爪鱼是一种模拟人的操做,除非他生成的分页地址不是要给人访问的,要不,照样采。
6、网页里面增长混淆不可见元素
背景:常规的网页数据解析为结构化数据,均是经过字符串定位与正则表达式匹配。因此增长混淆代码或文字,增长你破解的难度,给你增长麻烦。笔者曾见过某网页解析出来的时候写着:”不要采,不要采,再采我就又得被叼了“
解决办法:由于八爪鱼主要仍是能经过XPATH定位的方式,这种小技俩在XPATH面前,轻松就被绕开了。大不了咱们再用字符串替换,把一些混淆的字符段经过某种规则给替换掉便可。毕竟网页开发者留下混淆代码也是遵循某种规律留下的。
7、网站随机出现模板
背景:增长采集难度,同一类页面,可是多种模板展示
解决办法:这种状况主要是耐心点,笔者见过度页列表页面,单数页是一种模板,双数页是另一种,或者常规是一种,逢10就另一种。这种就须要咱们在一开始采集的时候,观察清楚。但这种又很好观察,通常换了模板,咱们就采不到数据。
不可能同一模板,前面一页采得好好的,后面一页就不行了。多数是出如今模板不一致致使的。八爪鱼内置判断逻辑,你能够经过页面不一样的特征,引导八爪鱼用不同的解析来破解。
8、人工智能防采集
背景:互联网99.9%以上的防采集措施,估计来来回回就这一些招吧,可是另外那0.01%,才是让人费劲的。像某些大公司,有专门的人工智能防采集团队。
他们能够经过识别你的网络请求,不论是走浏览器,仍是走请求的方式,只要你访问他们网站的轨迹,不像是通常用户访问的轨迹,或绝大多数用户的轨迹,他们都会进行一些防采集的策略,好比增长验证码,或出现假数据等等。
解决办法:这种时候就要求咱们,更加像”人“的操做同样,去进行采集。好比咱们通常会先访问首页,而后点点一些位置,拖拉一下,而后再进行列表页,再看一看,再进入详情页等等。这些摸拟人的操做,都可经过八爪鱼完成,包括自动下拉多少屏,停留时间,鼠标停留位置等等。
进化一:创建黑IP池
些大型公司,还会创建黑IP池,一旦是池子里的IP进行访问,立刻拒绝。这通常是出如今境外IP,或一些机房IP,说白就是已经被用烂的IP了。而这时候,优质的代理IP资源,就显得特别宝贵了。
八爪鱼优质代理IP设置界面
在笔者看来,采集与防采集,永远都是一个矛盾的问题,没法说绝对采集到,或绝对采集不到。在这一行当里面,真正考究的是采集成功与收益的问题,好比说增长验证码,IP等方式,均是须要必定的开销开本,特别在大数据量面前,这个成本有时是很是巨大的。
而网站方,也是经过这一点,来增长你的采集难度采集成本,从而达到一个相对平衡可控的范围。笔者经手过的项目,有些项目每一年须要花费上百万的IP或验证码成本才可获取到想要的数据,八爪鱼能作到的是,以最优的成本,帮你获取到你想要的数据,而不是0成本。
相关采集教程:
今日头条数据采集:
http://www.bazhuayu.com/tutorialdetail-1/jrtt-7.html
采集知乎话题信息(以知乎发现为例):
http://www.bazhuayu.com/tutorialdetail-1/zh-ht.html
淘宝网商品信息采集:
http://www.bazhuayu.com/tutorialdetail-1/cjtbsp-7.html
美团商家信息采集:
http://www.bazhuayu.com/tutorialdetail-1/mtsj_7.html
彩票开奖数据采集:
http://www.bazhuayu.com/tutorialdetail-1/cpkjdatacj.html
起点中文网小说采集方法以及详细步骤:
http://www.bazhuayu.com/tutorialdetail-1/qidianstorycj.html
亚马逊商品评论采集:
http://www.bazhuayu.com/tutorialdetail-1/ymxspplcj.html
八爪鱼——90万用户选择的网页数据采集器。
一、操做简单,任何人均可以用:无需技术背景,会上网就能采集。彻底可视化流程,点击鼠标完成操做,2分钟便可快速入门。
二、功能强大,任何网站均可以采:对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,都可通过简单设置进行采集。
三、云采集,关机也能够。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担忧IP被封,网络中断。
四、功能免费+增值服务,可按需选择。免费版具有全部功能,可以知足用户的基本采集需求。同时设置了一些增值服务(如私有云),知足高端付费企业用户的须要。