转自https://blog.csdn.net/qq_26591517/article/details/80092679markdown
1 ROC曲线的概念post
受试者工做特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为 感觉性曲线(sensitivity curve)。得此名的缘由在于曲线上各点反映着相同的感觉性,它们都是对同一 信号刺激的反应,只不过是在几种不一样的断定标准下所得的结果而已。接受者操做特性曲线就是以假阳性几率(False positive rate)为 横轴,击中几率为纵轴所组成的坐标图,和被试在特定刺激条件下因为采用不一样的判断标准得出的不一样结果画出的曲线。atom
ROC 曲线是根据一系列不一样的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。传统的诊断试验评价方 法有一个共同的特色,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的评价方法不一样,无须此限制,而是根据实际状况,容许有中间状 态,能够把试验结果划分为多个有序分类,如正常、大体正常、可疑、大体异常和异常五个等级再进行统计分析。所以,ROC曲线评价方法适用的范围更为普遍。.net
2 ROC曲线的例子翻译
考虑一个二分问题,即将实例分红正类(positive)或负类(negative)。对一个二分问题来讲,会出现四种状况。若是一个实例是正类而且也 被 预测成正类,即为真正类(True positive),若是实例是负类被预测成正类,称之为假正类(False positive)。相应地,若是实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(false negative)。3d
FN:漏报,没有正确找到的匹配的数目;excel
TN:正确拒绝的非匹配对数;blog
列联表以下表所示,1表明正类,0表明负类。 ci
从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+ FN),刻画的是分类器所识别出的 正实例占全部正实例的比例。另一个是假正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的是分类器错认为正类的负实例占全部负实例的比例。还有一个真负类率(True Negative Rate,TNR),也称为specificity,计算公式为TNR=TN/ (FP+ TN) = 1-FPR。get
其中,两列True matches和True non-match分别表明两行Pred matches和Pred non-match分别表明匹配上和预测匹配上的
FPR = FP/(FP + TN) 负样本中的错判率(假警报率)
TPR = TP/(TP + TN) 判对样本中的正样本率(命中率)
ACC = (TP + TN) / P+N 判对准确率
在一个二分类模型中,对于所获得的连续结果,假设已肯定一个阀值,好比说 0.6,大于这个值的实例划归为正类,小于这个值则划到负类中。若是减少阀值,减到0.5,当然能识别出更多的正类,也就是提升了识别出的正例占全部正例 的比类,即TPR,但同时也将更多的负实例看成了正实例,即提升了FPR。为了形象化这一变化,在此引入ROC。
Receiver Operating Characteristic,翻译为”接受者操做特性曲线”,够拗口的。曲线由两个变量1-specificity 和 Sensitivity绘制. 1-specificity=FPR,即假正类率。Sensitivity便是真正类率,TPR(True positive rate),反映了正类覆盖程度。这个组合以1-specificity对sensitivity,便是以代价(costs)对收益 (benefits)。
此外,ROC曲线还能够用来计算“均值平均精度”下表是一个逻辑回归获得的结果。将获得的实数值按大到小划分红10个个数 相同的部分。
其 正例数为此部分里实际的正类数。也就是说,将逻辑回归获得的结 果按从大到小排列,假若之前10%的数值做为阀值,即将前10%的实例都划归为正类,6180个。其中,正确的个数为4879个,占全部正类的 4879/14084*100%=34.64%,即敏感度;另外,有6180-4879=1301个负实例被错划为正类,占全部负类的1301 /47713*100%=2.73%,即1-特异度。以这两组值分别做为x值和y值,在excel中做散点图。