机器学习笔记 week09

一、异常检测

模型 p(x) 为这个测试数据属于一组数据的可能性,通过 p(x) < ε 检测为异常。

1、高斯分布

x 符合高斯分布 x~ N(μ,σ2),则其概率密度函数为:
在这里插入图片描述

2、参数估计

可以利用已有的数据来预测总体中的 μ 和 σ 的计算方法如下:
在这里插入图片描述
在这里插入图片描述

3、密度估计

对于给定的数据集 {x(1),x(2),…,x(m)},我们要针对每一个特征计算 μ 和 σ2 的估计值。
在这里插入图片描述

一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x):
在这里插入图片描述

4、数据集

数据集分为训练集、交叉验证集和测试集。比例6:2:2

  1. 首先,用训练集{x(1),x(2),…,x(m)}拟合p(x)
  2. 对于CV集,通过尝试使用不同的 ε 值作为阈值,并预测数据的y。再通过最大的F1值来确定 ε 值。
  3. 最后,选出 ε 值,针对测试值进行预测。

5、特征

最后让特征服从高斯分布。
使用log 或者 xc ,c∈(0,1)

6、异常检测与监督学习对比

在这里插入图片描述

7、多元高斯分布

①概率密度
在这里插入图片描述
②拟合参数 μ、∑
在这里插入图片描述
③用新样本 xtest,计算p(x)。若 < ε,为异常。

8、原高斯分布模型和多元高斯分布模型的比较

在这里插入图片描述