机器学习(十一)-------- 异常检测(Anomaly Detection)

异常检测(Anomaly Detection)
给定数据集 𝑥(1),𝑥(2),..,𝑥(𝑚),咱们假使数据集是正常的,咱们但愿知道新的数据 𝑥𝑡𝑒𝑠𝑡
是否是异常的,即这个测试数据不属于该组数据的概率如何。咱们所构建的模型应该能根据
该测试数据的位置告诉咱们其属于一组数据的可能性 𝑝(𝑥)。
算法

模型𝑝(𝑥) 为咱们其属于一组数据的可能性,经过𝑝(𝑥) < 检测非正经常使用户。函数

将应用高斯分布开发异常检测算法。
学习

对于给定的数据集 𝑥(1),𝑥(2),...,𝑥(𝑚),咱们要针对每个特征计算 𝜇 和 𝜎2 的估计值。
测试

一旦咱们得到了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 𝑝(𝑥):
3d

咱们选择一个,将𝑝(𝑥) = 做为咱们的断定边界,当𝑝(𝑥) > 时预测数据为正常数据,
不然为异常。blog

例如:咱们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 咱们这样分配数
据:
6000 台正常引擎的数据做为训练集
2000 台正常引擎和 10 台异常引擎的数据做为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据做为测试集
具体的评价方法以下:开发

  1. 根据测试集数据,咱们估计特征的平均值和方差并构建𝑝(𝑥)函数
  2. 对交叉检验集,咱们尝试使用不一样的值做为阀值,并预测数据是否异常,根据 F1 值
    或者查准率与查全率的比例来选择
  3. 选出 后,针对测试集进行预测,计算异常检验系统的𝐹1值,或者查准率与查全率
    之比。

异常检测与监督学习对比io

相关文章
相关标签/搜索