反爬经验与理论基础

时间 2019-12-07

标签经验理论基础繁體版

原文原文链接

1、反爬体系要作什么前端

完整的反爬体系有三大部分工做要作：感知识别、策略分析、监控封禁。小程序

（一）感知识别：后端

数据支撑：爬虫指纹、设备指纹、风险UA、IP库等，不一样端指纹的mapping等。
数据感知，什么人，经过什么方式，用什么爬虫，在什么时间，爬取了咱们什么内容。

（二）策略分析：浏览器

事前策略：经过技术手段，在源头使攻击者没法爬取。
过后策略：指感知到有爬虫事件后，采起的封禁、验证码等组合策略。

（三）识别封禁：架构

离线识别：经过数据埋点监控，可离线分析爬虫状况，实时性差，但对业务无任何影响。
在线识别：在线检测服务，在业务关键节点，调用在线检测服务，实时感知爬虫状况。
离线阻断：离线分析后，根据策略筛选出要封禁的IP、UA、Session、userid等，调用封禁服务统一封禁。
在线阻断：在线检测到爬虫行为后，直接调用封禁服务阻断爬虫。

2、反爬策略有哪些
（一）事前策略：app

js计算：js添加简单的数学计算，要求浏览器计算结果以后，返回给后端校验计算结果，来识别是不是爬虫行为。
js生成动态url：运维
- 生成动态参数：访问页面，先返回js脚本，js生成一个新参数，加入原请求中，再访问，才可获得数据。
- 生成动态地址：访问页面，先返回js脚本，js生成新接口地址，再访问新接口，才可获得数据。
js生成动态页面：动态生成js标签
由于js对用户是可见的，因此要尽可能提高攻击成本，要写难懂的js，好比大量使用eval和goto，好比作js混淆、js压缩等。

（二）过后策略：ui

阈值封锁加密
1. IP维度：常见，但有两个缺陷：容易误伤普通用户，容易被绕过。
2. Session或uid等维度：须要考虑不一样业务的Session或uid逻辑，是否惟一稳定？是否非空？
3. UA维度：误杀很是严重，除非能准确识别爬虫UA。
4. 设备指纹：PC、APP、小程序。
投毒：命中相应策略后，后端给前端反回必定比例的假数据。
验证码：图形、划动、短信、人脸、声纹。
加密：app参数加密，PC小程序先后端加密。前端加密须要作js混淆等处理。

3、反爬架构什么样url

数据支撑平台：经过埋点、采集等方式接入各种维度的基础数据和第三方指纹sdk，封装成统一的数据输出形式。数据输出能够接口、db、log等不一样形式。
数据分析平台；输入支撑数据，输出爬虫画像。
策略分析平台：输入爬虫画像，采起不一样策略，输出策略分析结果。
上报阻断平台：输入策略分析结果，上报给运维，作阻断。

相关文章

相关标签/搜索

计算机理论基础

爬虫－反爬虫

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<