模型 p(x) 为这个测试数据属于一组数据的可能性,通过 p(x) < ε 检测为异常。
x 符合高斯分布 x~ N(μ,σ2),则其概率密度函数为:
可以利用已有的数据来预测总体中的 μ 和 σ 的计算方法如下:
对于给定的数据集 {x(1),x(2),…,x(m)},我们要针对每一个特征计算 μ 和 σ2 的估计值。
一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x):
数据集分为训练集、交叉验证集和测试集。比例6:2:2
最后让特征服从高斯分布。
使用log 或者 xc ,c∈(0,1)
①概率密度
②拟合参数 μ、∑
③用新样本 xtest,计算p(x)。若 < ε,为异常。