混淆矩阵

时间 2019-11-11

标签混淆矩阵栏目应用数学繁體版

原文原文链接

P-R图直观的显示出学习器在样本整体上的查全率和查准率，在进行比较时，若一个学习器的P-R曲线被另外一个学习器的曲线彻底包住则后者的性能优于前者，好比A比C好。app

若是发生交叉现象则能够用F1度量：性能

　　　　　　　　$F1=\frac{2 P R}{P + R}$学习

通常形式（表达出对查准率/查全率的不一样偏好）：测试

　　　　　　　　$F_{\beta}=\frac{(1 + \beta^{2}) P R}{(\beta^{2} P) + R}$ blog

$F_{\beta}$是加权调和平均：排序

　　　　　　　　$\frac{1}{F_{\beta}}=\frac{1}{1 + \beta^{2}} (\frac{1}{P} + \frac{\beta^{2}}{R})$ im

其中$\beta>0$度量了查全率对查准率的相对重要程度，$\beta=1$退化为标准的F1，$\beta>1$时查全率有更大影响，$\beta<1$查准率有更大的影响。d3

不少时候咱们有多个二分类混淆矩阵，甚至是执行多分类任务，每俩俩类别的组合都对应一个混淆矩阵，总之咱们但愿在n个二分类的混淆矩阵上综合考察查准率和查全率。img

1.计算P、R、F1的平均值co

2.计算TP、FP、TN、FN的平均值，再计算P、R、F1。

ROC和AUG：不少学习器是为ce测试样本产生一个实值或几率预测，而后将这个预测值与一个分类阈值进行比较，若大于阈值则为正类，不然为反类。

真正例率（纵坐标）：

　　　　　　　　$TPR=\frac{TP}{TP + FN}$

假正例率（横坐标）：

　　　　　　　　$FPR=\frac{FP}{TN + FP}$

绘图：

给定m+个正例和m-个反例，根据学习器预测结果对样例进行排序，而后把分类阈值设为最大，即把所有样例均预测为反例。此时真正例率和假反例率均为0，而后将分类阈值依次设为每个样例的预测值，即依次将每一个样例划分为正例。

进行学习器的比较时，与P-R图相似，若一个学习器的ROC曲线被另外一个学习器的曲线彻底包住则后者的性能优于前者。若发生交叉则比较俩者的面积即AUG。

$AUG \approx \frac{1}{2} \sum_{i = 1}^{m - 1} (x_{i + 1} - x_{i}) (y_{i} + y_{i + 1})$