查全率（Recall），查准率（Precision），灵敏性（Sensitivity），特异性（Specificity），F1，PR曲线，ROC，AUC的应用场景

时间 2020-07-13

标签 recall precision 灵敏性 sensitivity 特异性 specificity f1 曲线 roc auc 应用场景繁體版

原文原文链接

以前介绍了这么多分类模型的性能评价指标（《分类模型的性能评价指标（Classification Model Performance Evaluation Metric）》），那么到底应该选择哪些指标来评估本身的模型呢？答案是应根据应用场景进行选择。html

查全率（Recall）：recall是相对真实的状况而言的：假设测试集里面有100个正类，若是模型预测出其中40个是正类，那模型的recall就是40%。查全率也称为召回率，等价于灵敏性（Sensitivity）和真正率（True Positive Rate，TPR）。
性能

查全率的应用场景：须要尽量地把所需的类别检测出来，而不在意结果是否准确。好比对于地震的预测，咱们但愿每次地震都能被预测出来，这个时候能够牺牲precision。假如一共发生了10次地震，咱们情愿发出1000次警报，这样能把这10次地震都涵盖进去（此时recall是100%，precision是1%），也不要发出100次警报，其中有8次地震给预测到了，但漏了2次（此时recall是80%，precision是8%）。测试

查准率（Precision）：precision是相对模型的预测结果而言的：假设模型一共预测出了100个正类，其中80个是正确的，那么precision就是80%。
搜索引擎

查准率的应用场景：须要尽量地把所需的类别检测准确，而不在意这些类别是否都被检测出来。好比对于罪犯的预测，咱们但愿预测结果是很是准确的，即便有时候放过了一些真正的罪犯，也不能错怪一个好人。lua

总结一下查全率和查准率的区别：

1. recall和precision是相互矛盾的。若是想要更高的recall，那么就要让模型的预测能覆盖到更多的样本，可是这样模型就更有可能犯错，也就是说precision会比较低。若是模型很保守，只能检测出它很肯定的样本，那么其precision会很高，可是recall会相对低。

2. recall（TPR）的分母是样本中正类的个数，所以样本一旦肯定，其分母即为定值，也就是说recall的变化随分子增长而单调递增；precision的分母是样本中预测为正类的个数，其会随着分类阈值的变化而变化，所以Precision的变化受TP和FP的综合影响，不单调，变化状况不可预测。

F1：F1 score是对查准率和查全率取平均，可是这里不是取算数平均，而是取调和平均。为何？由于调和平均值更接近较小值，这样查准率或查全率中哪一个值较小，调和平均值就更接近这个值，这样的测量指标更严格。spa

或 3d

F1的应用场景：在precision和recall二者要求一样高的状况下，能够用F1来衡量。orm

查全率和查准率是最经常使用的两个分类指标，除此以外人们还会用到如下一些指标：htm

（注：查全率在医学上常常被称为真阳性率（True Positive Rate，TPR），也就是正确检测出疾病的比例。）blog

假阳性率（False Positive Rate，FPR）：在全部实际为负类的样本中，预测错误的比例，在医学上又称误诊率（没有病的人被检测出有病），等于 1 - 特异性（Specificity）。

FPR= FP / (FP + TN)

假阴性率（False Negative Rate，FNR）：在全部实际为正类的样本中，预测错误的比例，在医学上又称漏诊率（有病的人没有被检测出来），等于 1 - 灵敏性（Sensitivity）。

FNR = FN /（TP + FN）

与recall和precision相互矛盾不一样，TPR和FPR呈正相关关系，也就是说TPR增大，FPR也会变大。咱们但愿TPR可以越大越好（为1），FPR越小越好（为0），但这一般是不可能发生的。

在现实中，人们每每对查全率和查准率都有要求，可是会根据应用场景偏向某一边。好比作疾病检测，咱们但愿尽量地把疾病检测出来，但同时也不想检测结果的准确率过低，由于这样会形成恐慌和没必要要的医疗支出（偏向recall）。又好比对于垃圾邮件检测（Spam Detection），咱们但愿检测出的垃圾邮件确定是垃圾邮件，而不但愿把正常邮件邮件归为垃圾邮件，由于这样有可能会给客户形成很大的损失，可是相对地，若是咱们常常把垃圾邮件归为正常邮件，虽然不会形成很大损失，可是会影响用户体验（偏向precision）。再好比若是是作搜索，搜出来的网页都和关键词相关才是好的搜索引擎，在这种状况下，咱们但愿precision高一些（偏向precision）。这时就要用到PR曲线。

PR曲线：x轴为查全率，y轴为查准率。

PR曲线的应用场景：须要根据需求找到对应的precision和recall值。若是偏向precison，那就是在保证recall的状况下提高precision；若是偏向recall，那就是在保证precision的状况下提高recall。好比对于欺诈检测（Fraud Detection），若是要求预测出的潜在欺诈人群尽量准确，那么就要提升precision；而若是要尽量多地预测出潜在的欺诈人群，那么就是要提升recall。通常来讲，提升二分类模型的分类阈值就能提升precision，下降分类阈值就能提升 recall，这时即可观察PR 曲线，根据本身的须要，找到最优的分类阈值（threshold）。

ROC曲线和AUC：ROC曲线的x轴为FPR，y轴为TPR。AUC值是一个几率值，反映的是分类器对样本的排序能力，即从全部正例中随机选取一个样本A，再从全部负例中随机选取一个样本B，分类器将A判为正例的几率比将B判为正例的几率大的可能性。AUC越大，说明排序能力越好，即分类器将越多的正例排在负例以前。

对于一个给定的数据集，ROC空间和PR空间存在一一对应的关系，由于两者的混淆矩阵彻底一致的。咱们能够将ROC曲线转化为PR曲线，反之亦然。那么既然已经有这么多评价指标了，为何还要使用ROC曲线和AUC呢？这是由于ROC曲线有一个很好的特性：当测试集中正负样本的比例发生变化的时候，ROC曲线可以保持不变。这样，当测试数据中正负样本的分布随时间而变化时，咱们就能够经过ROC曲线来比较模型的性能。

ROC曲线和AUC的应用场景：在二分类模型中正例和负例同等重要的时候（须要比较模型的总体性能），或者当测试数据中正负样本的分布随时间而变化时，适合用ROC曲线评价。

通常来讲，模型的ROC-AUC值越大，模型的分类效果越好。不过若是两个模型AUC值差很少，并不表明这两个模型的效果相同。下面两幅图中两条ROC曲线相交于一点，AUC值几乎同样：当须要高Sensitivity时，模型A（细线）比B好；当须要高Speciticity时，模型B（粗线）比A好。

总结一下PR曲线和ROC曲线&AUC的区别：

1. 在正负样本差距不大的状况下，ROC曲线和PR曲线的趋势是差很少的，可是当正负样本相差悬殊的时候（一般负样本比正样本多不少），二者就大相径庭了，在ROC曲线上的效果依然看似很好，可是在PR曲线上就效果通常了。这就说明对于类别不平衡问题，ROC曲线的表现会比较稳定（不会受不均衡数据的影响），但若是咱们但愿看出模型在正类上的表现效果，仍是用PR曲线更好，由于此时ROC曲线一般会给出一个过于乐观的效果估计。

2. ROC曲线因为兼顾正例与负例，适用于评估分类器的总体性能（一般是计算AUC，表示模型的排序性能）；PR曲线则彻底聚焦于正例，所以若是咱们主要关心的是正例，那么用PR曲线比较好。

3. ROC曲线不会随着类别分布的改变而改变。然而，这一特性在必定程度上也是其缺点。所以须要根据不用的场景进行选择：好比对于欺诈检测，每月正例和负例的比例可能都不相同，这时候若是只想看一下分类器的总体性能是否稳定，则用ROC曲线比较合适，由于类别分布的改变可能使得PR曲线发生变化，这种时候难以进行模型性能的比较；反之，若是想测试不一样的类别分布对分类器性能的影响，则用PR曲线比较合适。

总的来讲，咱们应该根据具体的应用场景，在相应的曲线上找到最优的点，获得相对应的precision，recall，f1 score等指标，而后去调整模型的分类阈值，从而获得一个符合具体应用的模型。

附：

如何画PR曲线？

根据每一个测试样本属于正样本的几率值从大到小排序，依次将这些几率值做为分类阈值，当测试样本属于正样本的几率大于或等于这个threshold时，咱们认为它为正样本，不然为负样本。每次选取一个不一样的threshold，咱们就能够获得一组recall和precision，即PR曲线上的一点。取n组不一样的分类阈值，就能够获得n个点，链接起来就成为一条曲线。threshold取值越多，PR曲线越平滑。

如何画ROC曲线？

根据每一个测试样本属于正样本的几率值从大到小排序，依次将这些几率值做为分类阈值，当测试样本属于正样本的几率大于或等于这个threshold时，咱们认为它为正样本，不然为负样本。每次选取一个不一样的threshold，咱们就能够获得一组FPR和TPR，即ROC曲线上的一点。取n组不一样的分类阈值，就能够获得n个点，链接起来就成为一条曲线。threshold取值越多，ROC曲线越平滑。

如何计算AUC值？

假定ROC曲线是由坐标为 ${(x_1, y_1), (x_2, y_2), (x_3, y_3), \cdots, (x_m, y_m)}$ 的点按序链接而造成，则AUC可估算为: