防采集与反爬虫常见的策略以及解决思路

时间 2019-11-24

标签采集爬虫常见的策略以及解决思路栏目网络爬虫繁體版

原文原文链接

1、限制IP单位时间访问次数还有频率html

背景：没有哪一个常人一秒钟内能访问相同网站N次（不论是不是同一个网页）正则表达式

解决办法：通常遇到这种状况咱们就放缓采集频率，无论你写代码添加Sleep，或者在咱们八爪鱼里面设置间隔时间均可以解决浏览器

进化1：有些高级点的防采集策略，他甚至监控到每一个请求的频率，若是一直处于同一个频率，好比一秒一次，他也是会封。服务器

解决办法：这种状况通常就须要咱们在采集间隔里面加上随机数，每次访问的频率相对随机。网络

进化2：有些更残忍的防采集策略，他甚至会监控每IP天天或每时段请求网页的数量。由于他能够经过数据分析，知道大致上他真实的用户通常最多会访问他多少网页，若是超过，他也照样封。异步

解决办法：这种状况也就只有用多IP或者多服务器来解决了，虚拟出许多不一样的终端在访问，平摊访问资源。八爪鱼在这块也提供了代理IP池套餐与旗舰版云服务器集群来保障。大数据

2、验证码网站

背景：验证码天生就是一个识别你究竟是人仍是机器的神器人工智能

解决办法：加密

这一招是被用烂的一招，如今普通的验证码，即便加了混淆，均可以经过图像识别技术给破解了，因此市面就多了好多诡异的验证码，最经典的，应该算是12306的验证码了吧。可是再复杂的验证码，包括那些中文成语，中文加减乘除之类的，都是有破解之法。由于这世上还有打码平台在，就是一种人工帮你输入验证码的平台。

八爪鱼内置支持绝大多数验证码的破解，除了少数的一两种特别极端，如今满世界还找不到破解之法，其余都支持。

3、用户登陆带COOKIE才能访问网站内容

背景：经过账号来限制你访问的权限

解决办法：

普通的，咱们只须要经过八爪鱼采集进行登录操做，只要你能提供相对应的账号密码，八爪鱼能够进行模拟操做登录网站，你就能够进去获取数据了。若是你没有账号，那就一点办法都没有了。就像IT桔子，你没账号，你只能看到前1000条数据。你只有付费购买他们的SAAS账号，你才能看到更多数据。

进化一：即便有账号也无论用

解决办法：

就像京东的评论，你只能看到最新的1000条。这种时候就必须用上八爪鱼的定时采集，咱们进行某种频率的监控，一有新数据就立刻采集下来，保持跟进，保持积累。

4、利用JS加密网页内容

背景：经过浏览器的JS运算出网页内容结果

解决办法：

这种招术，在对付HTTP POST请求的时候，是一种增长复杂度与难度的招术。可是八爪鱼天生就是对抗这种，八爪鱼内置浏览器访问网页数据，在打开网页的时候就会去执行JS调用代码获取数据，而后再解析网页数据。因此自带JS运算，轻轻松松就把这种给绕过去了。

而通常经过代码或HTTP请求模式的爬虫技术，是怎么绕都绕不开这种，而经过写代码进行采集的同窗，他必须把JS加密给破解了。

5、连接随机化

背景：网站页面连接随机化，同一个页面有多个连接或根据不一样状况生成连接

解决办法：

这种状况，通常要求咱们从源头开始访问，模拟人访问，好比从首页，进入到列表，再到内容页。他内页连接随机化，首页地址总不能随机吧。这种只要以不变应万变，便可破解。

进化1：利用脚本生成分页地址

这种状况，在八爪鱼浏览器面前，也是一点效力都没有。由于八爪鱼是一种模拟人的操做，除非他生成的分页地址不是要给人访问的，要不，照样采。

6、网页里面增长混淆不可见元素

背景：常规的网页数据解析为结构化数据，均是经过字符串定位与正则表达式匹配。因此增长混淆代码或文字，增长你破解的难度，给你增长麻烦。笔者曾见过某网页解析出来的时候写着：”不要采，不要采，再采我就又得被叼了“

解决办法：由于八爪鱼主要仍是能经过XPATH定位的方式，这种小技俩在XPATH面前，轻松就被绕开了。大不了咱们再用字符串替换，把一些混淆的字符段经过某种规则给替换掉便可。毕竟网页开发者留下混淆代码也是遵循某种规律留下的。

7、网站随机出现模板

背景：增长采集难度，同一类页面，可是多种模板展示

解决办法：这种状况主要是耐心点，笔者见过度页列表页面，单数页是一种模板，双数页是另一种，或者常规是一种，逢10就另一种。这种就须要咱们在一开始采集的时候，观察清楚。但这种又很好观察，通常换了模板，咱们就采不到数据。

不可能同一模板，前面一页采得好好的，后面一页就不行了。多数是出如今模板不一致致使的。八爪鱼内置判断逻辑，你能够经过页面不一样的特征，引导八爪鱼用不同的解析来破解。

8、人工智能防采集

背景：互联网99.9%以上的防采集措施，估计来来回回就这一些招吧，可是另外那0.01%，才是让人费劲的。像某些大公司，有专门的人工智能防采集团队。

他们能够经过识别你的网络请求，不论是走浏览器，仍是走请求的方式，只要你访问他们网站的轨迹，不像是通常用户访问的轨迹，或绝大多数用户的轨迹，他们都会进行一些防采集的策略，好比增长验证码，或出现假数据等等。

解决办法：这种时候就要求咱们，更加像”人“的操做同样，去进行采集。好比咱们通常会先访问首页，而后点点一些位置，拖拉一下，而后再进行列表页，再看一看，再进入详情页等等。这些摸拟人的操做，都可经过八爪鱼完成，包括自动下拉多少屏，停留时间，鼠标停留位置等等。

进化一：创建黑IP池

些大型公司，还会创建黑IP池，一旦是池子里的IP进行访问，立刻拒绝。这通常是出如今境外IP，或一些机房IP，说白就是已经被用烂的IP了。而这时候，优质的代理IP资源，就显得特别宝贵了。

八爪鱼优质代理IP设置界面

在笔者看来，采集与防采集，永远都是一个矛盾的问题，没法说绝对采集到，或绝对采集不到。在这一行当里面，真正考究的是采集成功与收益的问题，好比说增长验证码，IP等方式，均是须要必定的开销开本，特别在大数据量面前，这个成本有时是很是巨大的。

而网站方，也是经过这一点，来增长你的采集难度采集成本，从而达到一个相对平衡可控的范围。笔者经手过的项目，有些项目每一年须要花费上百万的IP或验证码成本才可获取到想要的数据，八爪鱼能作到的是，以最优的成本，帮你获取到你想要的数据，而不是0成本。

相关采集教程：

今日头条数据采集：

http://www.bazhuayu.com/tutorialdetail-1/jrtt-7.html

采集知乎话题信息（以知乎发现为例）：

http://www.bazhuayu.com/tutorialdetail-1/zh-ht.html

淘宝网商品信息采集：

http://www.bazhuayu.com/tutorialdetail-1/cjtbsp-7.html

美团商家信息采集：

http://www.bazhuayu.com/tutorialdetail-1/mtsj_7.html

彩票开奖数据采集：

http://www.bazhuayu.com/tutorialdetail-1/cpkjdatacj.html

起点中文网小说采集方法以及详细步骤：

http://www.bazhuayu.com/tutorialdetail-1/qidianstorycj.html

亚马逊商品评论采集：

http://www.bazhuayu.com/tutorialdetail-1/ymxspplcj.html

八爪鱼——90万用户选择的网页数据采集器。

一、操做简单，任何人均可以用：无需技术背景，会上网就能采集。彻底可视化流程，点击鼠标完成操做，2分钟便可快速入门。

二、功能强大，任何网站均可以采：对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页，都可通过简单设置进行采集。

三、云采集，关机也能够。配置好采集任务后可关机，任务可在云端执行。庞大云采集集群24*7不间断运行，不用担忧IP被封，网络中断。

四、功能免费+增值服务，可按需选择。免费版具有全部功能，可以知足用户的基本采集需求。同时设置了一些增值服务（如私有云），知足高端付费企业用户的须要。