做者|GUEST BLOG
编译|Flin
来源|analyticsvidhyapython
对象检测是计算机视觉社区中研究最普遍的主题之一。它已经进入了各个行业,涉及从图像安全,监视,自动车辆系统到机器检查的用例。安全
当前,基于深度学习的对象检测能够大体分为两类:机器学习
两级检测器,例如基于区域的CNN(R-CNN)及其后续产品。ide
一级探测器,例如YOLO系列探测器和SSD函数
应用于锚框的常规,密集采样(可能的物体位置)的一级检测器可能会更快,更简单,但因为在训练过程当中遇到极端的等级失衡,其精度已经落后于两级探测器。学习
FAIR在2018年发表了一篇论文,其中他们引入了焦点损失的概念,用他们称为RetinaNet的一级探测器来处理此类不平衡问题。ui
在咱们深刻探讨焦点丢失的本质以前,让咱们首先了解这个类不平衡问题是什么以及它可能引发的问题。.net
为何须要焦点损失对象
什么是焦点损失blog
交叉熵损失
平衡交叉熵损失
焦点损失说明
交叉熵损失 vs 焦点损失
最后的想法
两种经典的一级检测方法,如加强型检测器,DPM和最新的方法(如SSD)均可以评估每一个图像大约10^4 至 10^5个候选位置,但只有少数位置包含对象(即前景),而其他只是背景对象。这致使了类不平衡的问题。
这种不平衡致使两个问题
训练效率低下,由于大多数位置都容易被判断为负类(这意味着检测器能够轻松将其归类为背景),这对检测器的学习没有帮助。
容易产生的负类(几率较高的检测)占输入的很大一部分。虽然单独计算的梯度和损失较小,但它们可能使损耗和计算出的梯度不堪重负,并可能致使模型退化。
简而言之,焦点损失(Focal Loss,FL)是交叉熵损失(Cross-Entropy Loss,CE)的改进版本,它经过为难分类的或容易错误分类的示例(即带有噪声纹理的背景或部分对象的或咱们感兴趣的对象)分配更多的权重来处理类不平衡问题,并对简单示例(即背景对象)下降权重。
所以,焦点损失减小了简单示例的损失贡献,并增强了对纠正错误分类的示例的重视。
所以,让咱们首先了解二进制分类的交叉熵损失。
交叉熵损失背后的思想是惩罚错误的预测,而不是奖励正确的预测。
二进制分类的交叉熵损失以下:
其中:
Yact = Y的实际值
Ypred = Y的预测值
为了标记方便,咱们记 Yact = Y 且 Ypred = p 。
Y∈{0,1},这是正确标注
p∈[0,1],是模型对Y = 1的类别的估计几率。
为了符号上的方便,咱们能够将上述方程式改写为:
pt = {-ln(p) ,当Y=1 -ln(1-p) ,当 Y=}
CE(p,y)= CE(pt)=-ln(pt)
如你所见,下图中的蓝线表示当p很是接近0(当Y = 0时)或1时,容易分类的pt > 0.5的示例可能会产生不小的幅度的损失。
让咱们用下面的例子来理解它。
假设,前景(咱们称其为类1)正确分类为p = 0.95 ——
CE(FG)= -ln(0.95)= 0.05
而且背景(咱们称其为类0)正确分类为p = 0.05 ——
CE(BG)=-ln(1- 0.05)= 0.05
问题是,对于类不平衡的数据集,当这些小的损失在整个图像上相加时,可能会使总体损失(总损失)不堪重负。所以,将致使模型退化。
解决类别不平衡问题的一种常见方法是为类别引入权重因子∝[0,1]
为了标记方便,咱们能够在损失函数中定义 ∝t 以下:
CE(pt)= -∝t ln ln(pt)
如你所见,这只是交叉熵的扩展。
咱们的实验将代表,在密集检测器训练过程当中遇到的大类不平衡压倒了交叉熵损失。
容易分类的负类占损耗的大部分,并主导梯度。虽然平衡了正例/负例的重要性,但它并无区分简单/困难的示例。
让咱们经过一个例子来理解这一点
假设,前景(咱们称其为类1)正确分类为p = 0.95 ——
CE(FG)= -0.25 * ln(0.95)= 0.0128
正确分类为p = 0.05的背景(咱们称之为类0)——
CE(BG)=-(1-0.25)* ln(1- 0.05)= 0.038
虽然能够很好地正确区分正类和负类,但仍然不能区分简单/困难的例子。
这就是焦点损失(扩展到交叉熵)起做用的地方。
焦点损失只是交叉熵损失函数的扩展,它将下降简单示例的权重,并将训练重点放在困难的负样本上。
为此,研究人员提出:
(1- pt)γ 为交叉熵损失,且可调聚焦参数γ≥0。
RetinaNet物体检测方法使用焦点损失的α平衡变体,其中α = 0.25,γ= 2效果最佳。
所以,焦点损失能够定义为——
FL (pt) = -αt(1- pt)γ log log(pt).
对于γ∈[0,5]的几个值,能够看到焦点损失,请参见图1。
咱们将注意到焦点损失的如下特性:
随着增长,调制因数的做用一样增长。(通过大量实验和试验,研究人员发现γ = 2效果最佳)
注意:当γ= 0时,FL等效于CE。参考图中蓝色曲线。
直观上,调制因数减小了简单示例的损耗贡献,并扩展了示例接收低损耗的范围。
让咱们经过一个例子来了解上述焦点损失的特性。
前景正确分类,预测几率p=0.99,背景正确分类,预测几率p=0.01。
pt = {0.99,当Yact = 1 时 1-0.01,当Y act = 0时}调制因数(FG)=(1-0.99)2 = 0.0001
调制因数(BG)=(1-(1-0.01))2 = 0.0001,如你所见,调制因数接近于0,所以损耗将被权重下降。
前景被错误分类,预测几率p = 0.01,背景对象被错误分类,预测几率p = 0.99。
pt = {0.01,当Yact = 1 时 1-0.99,当Y act = 0时}调制因数(FG)=(1-0.01)2 = 0.9801
调制因数(BG)=(1-(1-0.99))2 = 0.9801如你所见,调制因数接近于1,所以损耗不受影响。
如今,让咱们使用一些示例比较交叉熵和焦点损失,并查看焦点损失在训练过程当中的影响。
让咱们经过考虑如下几种状况来进行比较。
假设前景正确分类的预测几率为p = 0.95,背景正确分类的背景为预测几率p = 0.05。
pt = {0.95, 当 Yact=1时 1-0.05 ,当 Yact = 0时} CE(FG)= -ln (0.95) = 0.0512932943875505
让咱们考虑在∝ = 0.25和γ= 2时的焦点损失。
FL(FG)= -0.25 * (1-0.95)2 * ln (0.95) = 3.2058308992219E-5
FL(BG)= -0.75 * (1-(1-0.05))2 * ln (1-0.05) = 9.61E-5
假设预测几率p=0.05的前景被分类为预测几率p=0.05的背景对象。
pt = {0.95,当Y act = 1 1-0.05时,当Y act = 0时}
CE(FG)= -ln(0.05)= 2.995732273553991
CE(BG)= -ln(1-0.95)= 2.995732273553992
让咱们考虑相同的场景,即∞=0.25和γ=2。
FL(FG)= -0.25 * (1-0.05)2 * ln(0.05)= 0.675912094220619
FL(BG)= -0.75 * (1-(1-0.95))2 * ln(1-0.95)= 2.027736282661858
假设对预测几率p=0.01的背景对象,用预测几率p=0.99对前景进行分类。
pt = {0.99, 当 Yact=1时 1-0.01 ,当 Yact = 0时}CE(FG)= -ln (0.99) = 0.0100503358535014
CE(BG)= -ln(1-0.01)= 0.0100503358535014
让咱们考虑相同的场景,即∞=0.25和γ=2。
FL(FG)= -0.25 * (1-0.01)2 * ln(0.99)= 2.51 * 10 -7
FL(BG)= -0.75 * (1-(1-0.01))2 * ln(1-0.01) = 7.5377518901261E-7
方案1:0.05129 / 3.2058 * 10 -7 =小1600倍
方案2:2.3 / 0.667 =小4.5倍
方案3:0.01 / 0.00000025 =小40,000倍。
这三个案例清楚地说明了焦点损失如何减少分类良好的记录的权重,另外一方面又为错误分类或较难分类的记录赋予较大的权重。
通过大量的试验和实验,研究人员发现 ∝ = 0.25和 γ = 2 效果最佳。
在对象检测中,咱们经历了从交叉熵损失到焦点损失的整个进化过程。我已经尽力解释了目标检测中的焦点损失。
感谢阅读!
https://medium.com/@14prakash/the-intuition-behind-retinanet-eb636755607d
https://developers.arcgis.com/python / guide / how-retinanet-works /
原文连接:https://www.analyticsvidhya.com/blog/2020/08/a-beginners-guide-to-focal-loss-in-object-detection/
欢迎关注磐创AI博客站:
http://panchuang.net/
sklearn机器学习中文官方文档:
http://sklearn123.com/
欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/