准确率&&精确率&&召回率&&ROC

分类

逻辑回归返回的是几率。您能够“原样”使用返回的几率(例如,用户点击此广告的几率为 0.00023),也能够将返回的几率转换成二元值(例如,这封电子邮件是垃圾邮件)。为了将逻辑回归值映射到二元类别,您必须指定分类阈值(也称为断定阈值)。若是值高于该阈值,则表示“垃圾邮件”;若是值低于该阈值,则表示“非垃圾邮件”。人们每每会认为分类阈值应始终为 0.5,但阈值取决于具体问题,所以您必须对其进行调整算法

选定分类阈值以后, 如何评估相应模型的质量呢?,咱们须要一些新指标,回归指标并不够用。机器学习

让咱们来试着计算一下如下模型的准确率,该模型将 100 个肿瘤分为恶性 (正类别)或良性(负类别):学习

clipboard.png

准确率

准确率是指咱们的模型预测正确的结果所占的比例优化

clipboard.png

准确率为 0.91,即 91%(总共 100 个样本中有 91 个预测正确)。这表示咱们的肿瘤分类器在识别恶性肿瘤方面表现得很是出色,对吧?spa

实际上,只要咱们仔细分析一下正类别和负类别,就能够更好地了解咱们模型的效果。3d

在 100 个肿瘤样本中,91 个为良性(90 个 TN 和 1 个 FP),9 个为恶性(1 个 TP 和 8 个 FN)。blog

在 91 个良性肿瘤中,该模型将 90 个正确识别为良性。这很好。不过,在 9 个恶性肿瘤中,该模型仅将 1 个正确识别为恶性。这是多么可怕的结果!9 个恶性肿瘤中有 8 个未被诊断出来!排序

虽然 91% 的准确率可能乍一看还不错,但若是另外一个肿瘤分类器模型老是预测良性,那么这个模型使用咱们的样本进行预测也会实现相同的准确率(100 个中有 91 个预测正确)。换言之,咱们的模型与那些没有预测能力来区分恶性肿瘤和良性肿瘤的模型差很少。ip

当您使用分类不平衡的数据集(好比正类别标签和负类别标签的数量之间存在明显差别)时,单单准确率一项并不能反映全面状况,准确率指标的效果就会大打折扣。假设有一个用于预测展现广告的广告点击率的模型, 咱们要尝试使用准确率指标来评估此模型的质量。对于展现广告,点击率一般为 千分之1、万分之一,甚至更低。it

精确率

(全部预测为正的样本中,实际也为正的比例有多少)
在被识别为正类别的样本中,实际上确实为正类别的比例是多少?

精确率的定义以下:

clipboard.png

正:表示预测结果为正; 真正例TP:表示预测为正,实际也为正; 假正例FP:表示预测为正,但实际不为正
来来计算一下上一部分中用于分析肿瘤的机器学习模型的精确率:

clipboard.png

clipboard.png

该模型的精确率为 0.5,也就是说,该模型在预测恶性肿瘤方面的正确率是 50%。

召回率

(全部实际为正的样本中,预测也为正的比例有多少)
全部实际上为正类别样本中,被正确预测为正类别的比例是多少?

clipboard.png

让咱们来计算一下肿瘤分类器的召回率:

clipboard.png

该模型的召回率是 0.11,也就是说,该模型可以正确识别出全部恶性肿瘤的百分比是 11%。

精确率和召回率:一场拔河比赛

要全面评估模型的有效性,必须同时检查精确率和召回率。遗憾的是,精确率和召回率每每是此消彼长的状况。也就是说,提升精确率一般会下降召回率值,反之亦然。请观察下图来了解这一律念,该图显示了电子邮件分类模型作出的 30 项预测。分类阈值右侧的被归类为“垃圾邮件”,左侧的则被归类为“非垃圾邮件”

电子邮件归类为垃圾邮件或非垃圾邮件的样本数据:

clipboard.png

此时的精确率为:预测为正的样本(8个TP,2个FP)中实际也为正(8个TP)的比例: 8/(2+8)=0.8
召回率:实际为正的样本(共11个TP),预测也为正(阈值右边有8个TP)的比例:8/(8+3) =0.73

此时咱们提升阈值

clipboard.png

精确率:7/(7+1) = 0.88
召回率: 7/(7+4) = 0.64

相反,下降阈值

clipboard.png

精确率:9/(9+3) = 0.75
召回率: 9/(9+2) = 0.82

因此,通常来讲,提升分类阈值会减小假正例,从而提升精确率。下降分类阈值会提升召回率。
他们之间的关系有点像另可错杀一千,不可放过一个坏人和另可放过一千,不可错杀一个好人的关系。

ROC 曲线

咱们选择特定的分类阈值后, 精确率和召回率值便均可以肯定。但咱们可能没法事先得知最合适的分类阈值, 而咱们仍然想知道咱们的模型质量如何。合理的作法是尝试使用 许多不一样的分类阈值来评估咱们的模型。事实上,咱们有一个指标可衡量 模型在全部可能的分类阈值下的效果。该指标称为ROC曲线,即接收者操做特征曲线。

ROC 曲线用于绘制采用不一样分类阈值时精确率召回率。下降分类阈值会致使将更多样本归为正类别,从而增长假正例和真正例的个数。下图显示了一个典型的 ROC 曲线。

clipboard.png

为了计算 ROC 曲线上的点,咱们可使用不一样的分类阈值屡次评估逻辑回归模型,但这样作效率很是低。幸运的是,有一种基于排序的高效算法能够为咱们提供此类信息,这种算法称为曲线下面积

曲线下面积:ROC 曲线下面积

曲线下面积表示“ROC 曲线下面积”。也就是说,曲线下面积测量的是从 (0,0) 到 (1,1) 之间整个 ROC 曲线如下的整个二维面积(参考积分学)。下图为曲线下面积(ROC 曲线下面积)。

clipboard.png

曲线下面积对全部可能的分类阈值的效果进行综合衡量。曲线下面积的一种解读方式是看做模型将某个随机正类别样本排列在某个随机负类别样本之上的几率。如下面的样本为例,逻辑回归预测从左到右以升序排列:

clipboard.png

曲线下面积表示随机正类别(绿色)样本位于随机负类别(红色)样本右侧的几率。

曲线下面积的取值范围为 0-1。预测结果 100% 错误的模型的曲线下面积为 0.0;而预测结果 100% 正确的模型的曲线下面积为 1.0。

曲线下面积因如下两个缘由而比较实用:

  • 曲线下面积的尺度不变。它测量预测的排名状况,而不是测量其绝对值。(只能比较两个预测模型得分高低,不能给出模型的具体得分分数,这个分数接近于曲面积的大小,只有一个曲面彻底含括另一个曲面才能说是一个模型比另一个模型要好)
  • 曲线下面积的分类阈值不变。它测量模型预测的质量,而不考虑所选的分类阈值(用来构造ROC曲线的分类阈值是一组全部可能被考虑的数值,并非按须要特定的)

不过,这两个缘由都有各自的局限性,这可能会致使曲线下面积在某些用例中不太实用:

  • 并不是老是但愿尺度不变。 例如,有时咱们很是须要被良好校准的几率输出,而曲线下面积没法告诉咱们这一结果。
  • 并不是老是但愿分类阈值不变。 在假负例与假正例的代价存在较大差别的状况下,尽可能减小一种类型的分类错误可能相当重要。例如,在进行垃圾邮件检测时,您可能但愿优先考虑尽可能减小假正例(即便这会致使假负例大幅增长)。对于此类优化,曲线下面积并不是一个实用的指标。
相关文章
相关标签/搜索