在二分类模型中有如下问题网络
预测为正例的样本中有多少比例是正例性能
查准率学习
有多少比例的正例被预测为正例spa
查全率排序
混淆矩阵ip
PR曲线get
横坐标是recall,纵坐标是precisionio
PR曲线必定程度地反映了,该模型区分正例和负例的能力。class
PR曲线面积小,说明模型对正例和负例的区分能力不足。
ROC曲线
横坐标是假阳性率FPR,纵坐标是灵敏度TPR(recall)
ROC曲线下的面积
这种形式能够看出ROC曲线面积可以衡量样本预测的排序偏差
PR曲线(或ROC曲线)的绘制
对样本的预测输出排序(例如神经网络模型输出是数值),取一个阈值,计算该阈值对应的PR曲线(或ROC曲线)上的一点
ROC曲线效果好说明对样本预测排序的偏差小,而PR曲线效果差说明模型的预测值不能很好地区分正例和负例
ROC曲线效果好,说明能同时保持查全率高和假阳性率低。
根据定义,当阈值的选取使得查全率(TPR)高时,FN远小于TP。又由于假阳性率(FPR)低,因此FP远小于TN。
说明不多有阳性样本被判断成阴性,被判断成阳性样本的阴性样本的数量(FP)远小于正确判断为阴性的样本的数量(TN)。
PR曲线效果很差,说明查全率高的时候准确率低。
根据定义,当阈值的选取使得查全率高的时候,FN远小于TP,而FP远大于TP。说明不多有阳性样本被判断成阴性,可是有不少阴性样本被判断成阳性。
由于是获得了同一个查全率,以上两种状况中取的阈值是同一个,因此\(FN\ll TP \ll FP \ll TN\)。其中FP和TN是阴性样本,FN和TP是阳性样本,这说明数据集里阴性样本的数量远大于阳性样本的数量。