信息检索(IR)的评价指标介绍

信息检索(IR)的评价指标介绍

一、准确率、召回率和F1

IR领域两个最基本的指标召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率。

1.召回率=系统检索到的相关文件/系统所有相关文件总数

2.准确率=系统检索到的相关文件/系统所有检索到的文件总数

如图1所示:

 

1  准确率、召回率、F1计算方法示意

准确率和召回率是相互影响的,理想情况下,两者都高最好。但通常情况下,两者一个高,另一个就会低。不同应用场景下,选取指标不同。如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回。如果两者都要求高的情况下,则使用另外一个指标F1:F1=2P×R/(P+R)。

二、AP和mAP(mean Average Precision)

mAP是为解决P,R,F-measure的单点值局限性的。为了得到一个能够反映全局性能的指标,可以看考察图2,其中两条曲线(方块点与圆点)分布对应了两个检索系统的准确率-召回率曲线。

 

2 准确率和召回率曲线图

可以看出,虽然两个系统的性能曲线有所交叠,但是以圆点标示的系统的性能在绝大多数情况下要好于用方块标示的系统。

从中我们可以 发现一点,如果一个系统的性能较好,其曲线应当尽可能的向上凸出,即曲线与坐标轴之间的面积应当越大。理想状态下,系统包含的面积应当是1

这就是用以评价信息检索系统的最常用性能指标,平均准确率mAP,其规范的定义如下:(其中PR分别为准确率与召回率)

 

三、ROC和AUC

ROCReceiver Operating Characteristic)AUCArea Under roc Curve)是评价分类器的指标。含义如图3所示。

 

3 示意图

ROC关注两个指标:

True Positive Rate ( TPR )  = TP / [ TP + FN] ,TPR代表能将正例分对的概率

False Positive Rate( FPR ) = FP / [ FP + TN] ,FPR代表将负例错分为正例的概率

ROC 空间中,每个点的横坐标是FPR,纵坐标是TPR,这也就描绘了分类器在TP(真正的正例)和FP(错误的正例)间的trade-off。

ROC的主要分析工具是一个画在ROC空间的曲线——ROC curve。对于二值分类问题,实例的值往往是连续值,我们通过设定一个阈值,将实例分类到正类或者负类(比如大于阈值划分为正类)。因此我们可以变化阈值,根据不同的阈值进行分类,根据分类结果计算得到ROC空间中相应的点,连接这些点就形成ROC curve。ROC curve经过(0,0)(1,1),实际上(0, 0)和(1, 1)连线形成的ROC curve实际上代表的是一个随机分类器。一般情况下,这个曲线都应该处于(0, 0)和(1, 1)连线的上方。如图4所示。

 

4 TPR与FPR函数关系图

ROC curve来表示分类器的performance很直观好用。可是,人们总是希望能有一个数值来标志分类器的好坏。于是Area Under roc Curve(AUC)就出现了。顾名思义,AUC的值就是处于ROC curve下方的那部分面积的大小。通常,AUC的值介于0.5到1.0之间,较大的AUC代表了较好的Performance。

AUC计算工具:http://mark.goadrich.com/programs/AUC/

P/R和ROC是两个不同的评价指标和计算方式,一般情况下,检索用前者,分类、识别等用后者。

参考链接:

http://www.vanjor.org/blog/2010/11/recall-precision/

http://bubblexc.com/y2011/148/

http://wenku.baidu.com/view/ef91f011cc7931b765ce15ec.html