基于机器学习的web异常检测

时间 2019-11-11

标签基于机器学习 web 异常检测栏目 HTML 繁體版

原文原文链接

基于机器学习的web异常检测

Web防火墙是信息安全的第一道防线。随着网络技术的快速更新，新的黑客技术也层出不穷，为传统规则防火墙带来了挑战。传统web入侵检测技术经过维护规则集对入侵访问进行拦截。一方面，硬规则在灵活的黑客面前，很容易被绕过，且基于以往知识的规则集难以应对0day攻击；另外一方面，攻防对抗水涨船高，防守方规则的构造和维护门槛高、成本大。web

基于机器学习技术的新一代web入侵检测技术有望弥补传统规则集方法的不足，为web对抗的防守端带来新的发展和突破。机器学习方法可以基于大量数据进行自动化学习和训练，已经在图像、语音、天然语言处理等方面普遍应用。然而，机器学习应用于web入侵检测也存在挑战，其中最大的困难就是标签数据的缺少。尽管有大量的正常访问流量数据，但web入侵样本稀少，且变化多样，对模型的学习和训练形成困难。所以，目前大多数web入侵检测都是基于无监督的方法，针对大量正常日志创建模型(Profile)，而与正常流量不符的则被识别为异常。这个思路与拦截规则的构造偏偏相反。拦截规则意在识别入侵行为，于是须要在对抗中“随机应变”；而基于profile的方法旨在建模正常流量，在对抗中“以不变应万变”，且更难被绕过。算法

基于异常检测的web入侵识别，训练阶段一般须要针对每一个url，基于大量正常样本，抽象出可以描述样本集的统计学或机器学习模型(Profile)。检测阶段，经过判断web访问是否与Profile相符，来识别异常。安全

对于Profile的创建，主要有如下几种思路：

1. 基于统计学习模型网络

基于统计学习的web异常检测，一般须要对正常流量进行数值化的特征提取和分析。特征例如，URL参数个数、参数值长度的均值和方差、参数字符分布、URL的访问频率等等。接着，经过对大量样本进行特征分布统计，创建数学模型，进而经过统计学方法进行异常检测。框架

2. 基于文本分析的机器学习模型机器学习

Web异常检测归根结底仍是基于日志文本的分析，于是能够借鉴NLP中的一些方法思路，进行文本分析建模。这其中，比较成功的是基于隐马尔科夫模型(HMM)的参数值异常检测。学习

3. 基于单分类模型测试

因为web入侵黑样本稀少，传统监督学习方法难以训练。基于白样本的异常检测，能够经过非监督或单分类模型进行样本学习，构造可以充分表达白样本的最小模型做为Profile，实现异常检测。编码

4. 基于聚类模型url

一般正常流量是大量重复性存在的，而入侵行为则极为稀少。所以，经过web访问的聚类分析，能够识别大量正常行为以外，小搓的异常行为，进行入侵发现。

基于统计学习模型

基于统计学习模型的方法，首先要对数据创建特征集，而后对每一个特征进行统计建模。对于测试样本，首先计算每一个特征的异常程度，再经过模型对异常值进行融合打分，做为最终异常检测判断依据。

这里以斯坦福大学CS259D: Data Mining for CyberSecurity课程[1]为例，介绍一些行之有效的特征和异常检测方法。

特征1：参数值value长度
模型：长度值分布，均值μ，方差σ2，利用切比雪夫不等式计算异常值p

特征2：字符分布
模型：对字符分布创建模型，经过卡方检验计算异常值p

特征3：参数缺失
模型：创建参数表，经过查表检测参数错误或缺失

特征4：参数顺序
模型：参数顺序有向图，判断是否有违规顺序关系

特征5：访问频率（单ip的访问频率，总访问频率）
模型：时段内访问频率分布，均值μ，方差σ2，利用切比雪夫不等式计算异常值p

特征6：访问时间间隔
模型：间隔时间分布，经过卡方检验计算异常值p

最终，经过异常打分模型将多个特征异常值融合，获得最终异常打分：

基于文本分析的机器学习模型

URL参数输入的背后，是后台代码的解析，一般来讲，每一个参数的取值都有一个范围，其容许的输入也具备必定模式。好比下面这个例子：

例子中，绿色的表明正常流量，红色的表明异常流量。因为异常流量和正常流量在参数、取值长度、字符分布上都很类似，基于上述特征统计的方式难以识别。进一步看，正常流量尽管每一个都不相同，但有共同的模式，而异常流量并不符合。在这个例子中，符合取值的样本模式为：数字字母数字，咱们能够用一个状态机来表达合法的取值范围：

对文本序列模式的建模，相比较数值特征而言，更加准确可靠。其中，比较成功的应用是基于隐马尔科夫模型(HMM)的序列建模，这里仅作简单的介绍，具体请参考推荐文章[2]。

基于HMM的状态序列建模，首先将原始数据转化为状态表示，好比数字用N表示状态，字母用a表示状态，其余字符保持不变。这一步也能够看作是原始数据的归一化(Normalization)，其结果使得原始数据的状态空间被有效压缩，正常样本间的差距也进一步减少。

紧接着，对于每一个状态，统计以后一个状态的几率分布。例如，下图就是一个可能获得的结果。“^”表明开始符号，因为白样本中都是数字开头，起始符号(状态^)转移到数字(状态N)的几率是1；接下来，数字(状态N)的下一个状态，有0.8的几率仍是数字(状态N)，有0.1的几率转移到下划线，有0.1的几率转移到结束符(状态$)，以此类推。

利用这个状态转移模型，咱们就能够判断一个输入序列是否符合白样本的模式：

正常样本的状态序列出现几率要高于异常样本，经过合适的阈值能够进行异常识别。

基于单分类模型

在二分类问题中，因为咱们只有大量白样本，能够考虑经过单分类模型，学习单类样本的最小边界，边界以外的则识别为异常。

这类方法中，比较成功的应用是单类支持向量机(one-class SVM)。这里简单介绍该类方法的一个成功案例McPAD的思路，具体方法关注文章[3]。

McPAD系统首先经过N-Gram将文本数据向量化，对于下面的例子，

首先经过长度为N的滑动窗口将文本分割为N-Gram序列，例子中，N取2，窗口滑动步长为1，能够获得以下N-Gram序列。

下一步要把N-Gram序列转化成向量。假设共有256种不一样的字符，那么会获得256256种2-GRAM的组合(如aa, ab, ac … )。咱们能够用一个256256长的向量，每一位one-hot的表示(有则置1，没有则置0)文本中是否出现了该2-GRAM。由此获得一个256*256长的0/1向量。进一步，对于每一个出现的2-Gram，咱们用这个2-Gram在文本中出现的频率来替代单调的“1”，以表示更多的信息：

至此，每一个文本均可以经过一个256*256长的向量表示。

如今咱们获得了训练样本的256*256向量集，如今须要经过单分类SVM去找到最小边界。然而问题在于，样本的维度过高，会对训练形成困难。咱们还须要再解决一个问题：如何缩减特征维度。特征维度约减有不少成熟的方法，McPAD系统中对特征进行了聚类达到降维目的。

上左矩阵中黑色表示0，红色表示非零。矩阵的每一行，表明一个输入文本(sample)中具备哪些2-Gram。若是换一个角度来看这个矩阵，则每一列表明一个2-Gram有哪些sample中存在，由此，每一个2-Gram也能经过sample的向量表达。从这个角度咱们能够得到2-Gram的相关性。对于2-Gram的向量进行聚类，指定的类别数K即为约减后的特征维数。约减后的特征向量，再投入单类SVM进行进一步模型训练。

再进一步，McPAD采用线性特征约减加单分类SVM的方法解决白模型训练的过程，其实也能够被深度学习中的深度自编码模型替代，进行非线性特征约减。同时，自编码模型的训练过程自己就是学习训练样本的压缩表达，经过给定输入的重建偏差，就能够判断输入样本是否与模型相符。

咱们仍是沿用McPAD经过2-Gram实现文本向量化的方法，直接将向量输入到深度自编码模型，进行训练。测试阶段，经过计算重建偏差做为异常检测的标准。

基于这样的框架，异常检测的基本流程以下，一个更加完善的框架能够参见文献[4]。

本文管中窥豹式的介绍了机器学习用于web异常检测的几个思路。web流量异常检测只是web入侵检测中的一环，用于从海量日志中捞出少许的“可疑”行为，可是这个“少许”仍是存在大量误报，只能用于检测，还远远不能直接用于WAF直接拦截。一个完备的web入侵检测系统，还须要在此基础上进行入侵行为识别，以及告警降误报等环节。

2017阿里聚安全算法挑战赛将收集从网上真实访问流量中提取的URL，通过脱敏和混淆处理，让选手利用机器学习算法提升检测精度，真实体验这一过程。并有机会得到30万元奖金，奔赴加拿大参加KDD----国际最负盛名的数据挖掘会议！

报名地址：https://tianchi.shuju.aliyun....

推荐阅读

CS259D: Data Mining for CyberSecurity, 课程网址：http://web.stanford.edu/class...
楚安，数据科学在Web威胁感知中的应用，http://www.jianshu.com/p/942d...
McPAD : A Multiple Classifier System for Accurate Payload-based Anomaly Detection, Roberto Perdisci
AI2 : Training a big data machine to defend, Kalyan Veeramachaneni

基于机器学习的web异常检测

基于机器学习的web异常检测

对于Profile的创建，主要有如下几种思路：

基于统计学习模型

基于文本分析的机器学习模型

基于单分类模型

做者：七雨@阿里聚安全 ，更多阿里安全类技术文章，请访问阿里聚安全博客

做者：七雨@阿里聚安全，更多阿里安全类技术文章，请访问阿里聚安全博客