查全率(Recall),查准率(Precision),灵敏性(Sensitivity),特异性(Specificity),F1,PR曲线,ROC,AUC的应用场景

以前介绍了这么多分类模型的性能评价指标(分类模型的性能评价指标(Classification Model Performance Evaluation Metric)),那么到底应该选择哪些指标来评估本身的模型呢?答案是应根据应用场景进行选择。html

 

查全率(Recall):recall是相对真实的状况而言的:假设测试集里面有100个正类,若是模型预测出其中40个是正类,那模型的recall就是40%。查全率也称为召回率,等价于灵敏性(Sensitivity)真正率(True Positive Rate,TPR)
性能

 

查全率的应用场景:须要尽量地把所需的类别检测出来,而不在意结果是否准确。好比对于地震的预测,咱们但愿每次地震都能被预测出来,这个时候能够牺牲precision。假如一共发生了10次地震,咱们情愿发出1000次警报,这样能把这10次地震都涵盖进去(此时recall是100%,precision是1%),也不要发出100次警报,其中有8次地震给预测到了,但漏了2次(此时recall是80%,precision是8%)。测试

 

查准率(Precision):precision是相对模型的预测结果而言的:假设模型一共预测出了100个正类,其中80个是正确的,那么precision就是80%。
搜索引擎

 

 

查准率的应用场景:须要尽量地把所需的类别检测准确,而不在意这些类别是否都被检测出来。好比对于罪犯的预测,咱们但愿预测结果是很是准确的,即便有时候放过了一些真正的罪犯,也不能错怪一个好人。lua

 

总结一下查全率和查准率的区别:
1. recall和precision是相互矛盾的。若是想要更高的recall,那么就要让模型的预测能覆盖到更多的样本,可是这样模型就更有可能犯错,也就是说precision会比较低。若是模型很保守,只能检测出它很肯定的样本,那么其precision会很高,可是recall会相对低。
2. recall(TPR)的分母是样本中正类的个数,所以样本一旦肯定,其分母即为定值,也就是说recall的变化随分子增长而单调递增;precision的分母是样本中预测为正类的个数,其会随着分类阈值的变化而变化,所以Precision的变化受TP和FP的综合影响,不单调,变化状况不可预测。

 


 

F1:F1 score是对查准率和查全率取平均,可是这里不是取算数平均,而是取调和平均。为何?由于调和平均值更接近较小值,这样查准率或查全率中哪一个值较小,调和平均值就更接近这个值,这样的测量指标更严格。spa

  或  3d

 

F1的应用场景:在precision和recall二者要求一样高的状况下,能够用F1来衡量。orm

 


 

查全率和查准率是最经常使用的两个分类指标,除此以外人们还会用到如下一些指标:htm

(注:查全率在医学上常常被称为真阳性率(True Positive Rate,TPR),也就是正确检测出疾病的比例。)blog

 

假阳性率(False Positive Rate,FPR):在全部实际为负类的样本中,预测错误的比例,在医学上又称误诊率(没有病的人被检测出有病),等于 1 - 特异性(Specificity)

FPR= FP / (FP + TN) 

 

假阴性率(False Negative Rate,FNR):在全部实际为正类的样本中,预测错误的比例,在医学上又称漏诊率(有病的人没有被检测出来),等于 1 - 灵敏性(Sensitivity)

FNR = FN /(TP + FN)

 

与recall和precision相互矛盾不一样,TPR和FPR呈正相关关系,也就是说TPR增大,FPR也会变大。咱们但愿TPR可以越大越好(为1),FPR越小越好(为0),但这一般是不可能发生的。

 


 

在现实中,人们每每对查全率和查准率都有要求,可是会根据应用场景偏向某一边。好比作疾病检测,咱们但愿尽量地把疾病检测出来,但同时也不想检测结果的准确率过低,由于这样会形成恐慌和没必要要的医疗支出(偏向recall)。又好比对于垃圾邮件检测(Spam Detection),咱们但愿检测出的垃圾邮件确定是垃圾邮件,而不但愿把正常邮件邮件归为垃圾邮件,由于这样有可能会给客户形成很大的损失,可是相对地,若是咱们常常把垃圾邮件归为正常邮件,虽然不会形成很大损失,可是会影响用户体验(偏向precision)。再好比若是是作搜索,搜出来的网页都和关键词相关才是好的搜索引擎,在这种状况下,咱们但愿precision高一些(偏向precision)。这时就要用到PR曲线。

 

PR曲线:x轴为查全率,y轴为查准率。

 

PR曲线的应用场景:须要根据需求找到对应的precision和recall值。若是偏向precison,那就是在保证recall的状况下提高precision;若是偏向recall,那就是在保证precision的状况下提高recall。好比对于欺诈检测(Fraud Detection),若是要求预测出的潜在欺诈人群尽量准确,那么就要提升precision;而若是要尽量多地预测出潜在的欺诈人群,那么就是要提升recall。通常来讲,提升二分类模型的分类阈值就能提升precision,下降分类阈值就能提升 recall,这时即可观察PR 曲线,根据本身的须要,找到最优的分类阈值(threshold)。

 


 

ROC曲线和AUC:ROC曲线的x轴为FPR,y轴为TPR。AUC值是一个几率值,反映的是分类器对样本的排序能力,即从全部正例中随机选取一个样本A,再从全部负例中随机选取一个样本B,分类器将A判为正例的几率比将B判为正例的几率大的可能性。AUC越大,说明排序能力越好,即分类器将越多的正例排在负例以前。

 

对于一个给定的数据集,ROC空间和PR空间存在一一对应的关系,由于两者的混淆矩阵彻底一致的。咱们能够将ROC曲线转化为PR曲线,反之亦然。那么既然已经有这么多评价指标了,为何还要使用ROC曲线和AUC呢?这是由于ROC曲线有一个很好的特性:当测试集中正负样本的比例发生变化的时候,ROC曲线可以保持不变。这样,当测试数据中正负样本的分布随时间而变化时,咱们就能够经过ROC曲线来比较模型的性能。

 

ROC曲线和AUC的应用场景:在二分类模型中正例和负例同等重要的时候(须要比较模型的总体性能),或者当测试数据中正负样本的分布随时间而变化时,适合用ROC曲线评价。

 

通常来讲,模型的ROC-AUC值越大,模型的分类效果越好。不过若是两个模型AUC值差很少,并不表明这两个模型的效果相同。下面两幅图中两条ROC曲线相交于一点,AUC值几乎同样:当须要高Sensitivity时,模型A(细线)比B好;当须要高Speciticity时,模型B(粗线)比A好。

 

总结一下PR曲线和ROC曲线&AUC的区别:

1. 在正负样本差距不大的状况下,ROC曲线和PR曲线的趋势是差很少的,可是当正负样本相差悬殊的时候(一般负样本比正样本多不少),二者就大相径庭了,在ROC曲线上的效果依然看似很好,可是在PR曲线上就效果通常了。这就说明对于类别不平衡问题,ROC曲线的表现会比较稳定(不会受不均衡数据的影响),但若是咱们但愿看出模型在正类上的表现效果,仍是用PR曲线更好,由于此时ROC曲线一般会给出一个过于乐观的效果估计。

2. ROC曲线因为兼顾正例与负例,适用于评估分类器的总体性能(一般是计算AUC,表示模型的排序性能);PR曲线则彻底聚焦于正例,所以若是咱们主要关心的是正例,那么用PR曲线比较好。

3. ROC曲线不会随着类别分布的改变而改变。然而,这一特性在必定程度上也是其缺点。所以须要根据不用的场景进行选择:好比对于欺诈检测,每月正例和负例的比例可能都不相同,这时候若是只想看一下分类器的总体性能是否稳定,则用ROC曲线比较合适,由于类别分布的改变可能使得PR曲线发生变化,这种时候难以进行模型性能的比较;反之,若是想测试不一样的类别分布对分类器性能的影响,则用PR曲线比较合适。

 

总的来讲,咱们应该根据具体的应用场景,在相应的曲线上找到最优的点,获得相对应的precision,recall,f1 score等指标,而后去调整模型的分类阈值,从而获得一个符合具体应用的模型。

 


 

附:

如何画PR曲线?

根据每一个测试样本属于正样本的几率值从大到小排序,依次将这些几率值做为分类阈值,当测试样本属于正样本的几率大于或等于这个threshold时,咱们认为它为正样本,不然为负样本。每次选取一个不一样的threshold,咱们就能够获得一组recall和precision,即PR曲线上的一点。取n组不一样的分类阈值,就能够获得n个点,链接起来就成为一条曲线。threshold取值越多,PR曲线越平滑。

 

如何画ROC曲线?

根据每一个测试样本属于正样本的几率值从大到小排序,依次将这些几率值做为分类阈值,当测试样本属于正样本的几率大于或等于这个threshold时,咱们认为它为正样本,不然为负样本。每次选取一个不一样的threshold,咱们就能够获得一组FPR和TPR,即ROC曲线上的一点。取n组不一样的分类阈值,就能够获得n个点,链接起来就成为一条曲线。threshold取值越多,ROC曲线越平滑。

 

如何计算AUC值?

假定ROC曲线是由坐标为 [公式] 的点按序链接而造成,则AUC可估算为:

相关文章
相关标签/搜索