论文:CornerNet: Detecting Objects as Paired Keypoints
论文连接:https://arxiv.org/abs/1808.01244
代码连接:https://github.com/umich-vl/CornerNetgit
这篇发表在ECCV2018上的目标检测文章给人一种眼前一亮的感受,简单说一下几个比较吸引个人点:一、将目标检测问题看成关键点检测问题来解决,也就是经过检测目标框的左上角和右下角两个关键点获得预测框,所以CornerNet算法中没有anchor的概念,这种作法在目标检测领域是比较创新的并且可以取得不错效果是很难的。二、整个检测网络的训练是从头开始的,并不基于预训练的分类模型,这使得用户可以自由设计特征提取网络,不用受预训练模型的限制。github
咱们知道目前大部分经常使用的目标检测算法都是基于anchor的,好比Faster RCNN系列,SSD,YOLO(v二、v3)等,引入anchor后检测效果提高确实比较明显(好比YOLO v1和YOLO v2),可是引入anchor的缺点在于:一、正负样本不均衡。大部分检测算法的anchor数量都成千上万,可是一张图中的目标数量并无那么多,这就致使正样本数量会远远小于负样本,所以有了对负样本作欠采样以及focal loss等算法来解决这个问题。二、引入更多的超参数,好比anchor的数量、大小和宽高比等。所以这篇不采用anchor却能有不错效果的CornerNet就省去了这几个额外的操做,确实是很是有意思的做品。算法
CornerNet算法总体结构如Figure4所示。
首先1个7×7的卷积层将输入图像尺寸缩小为原来的1/4(论文中输入图像大小是511×511,缩小后获得128×128大小的输出)。
而后通过特征提取网络(backbone network)提取特征,该网络采用hourglass network,该网络经过串联多个hourglass module组成(Figure4中的hourglass network由2个hourglass module组成),每一个hourglass module都是先经过一系列的降采样操做缩小输入的大小,而后经过上采样恢复到输入图像大小,所以该部分的输出特征图大小仍是128×128,整个hourglass network的深度是104层。
hourglass module后会有两个输出分支模块,分别表示左上角点预测分支和右下角点预测分支,每一个分支模块包含一个corner pooling层和3个输出:heatmaps、embeddings和offsets。heatmaps是输出预测角点信息,能够用维度为CHW的特征图表示,其中C表示目标的类别(注意:没有背景类),这个特征图的每一个通道都是一个mask,mask的每一个值(范围为0到1,论文中写的该mask是binary mask,也就是0或1,我的感受是笔误,预测值应该是0到1,不然后面公式1计算损失函数时就没有意思了)表示该点是角点的分数;embeddings用来对预测的corner点作group,也就是找到属于同一个目标的左上角角点和右下角角点;offsets用来对预测框作微调,这是由于从输入图像中的点映射到特征图时有量化偏差,offsets就是用来输出这些偏差信息。markdown
接下来分别看看这3个输出和corner pooling的含义。网络
CornerNet的第一个输出是headmaps,也就是预测角点的位置。
公式1是针对角点预测(headmaps)的损失函数,总体上是改良版的focal loss。几个参数的含义:pcij表示预测的heatmaps在第c个通道(类别c)的(i,j)位置的值,ycij表示对应位置的ground truth,N表示目标的数量。ycij=1时候的损失函数容易理解,就是focal loss,α参数用来控制难易分类样本的损失权重;ycij等于其余值时表示(i,j)点不是类别c的目标角点,照理说此时ycij应该是0(大部分算法都是这样处理的),可是这里ycij不是0,而是用基于ground truth角点的高斯分布计算获得,所以距离ground truth比较近的(i,j)点的ycij值接近1,这部分经过β参数控制权重,这是和focal loss的差异。为何对不一样的负样本点用不一样权重的损失函数呢?这是由于靠近ground truth的误检角点组成的预测框仍会和ground truth有较大的重叠面积,如Figure5所示。函数
Figure5是关于对不一样负样本点的损失函数采起不一样权重值的缘由。红色实线框是ground truth;橘色圆圈是根据ground truth的左上角角点、右下角角点和设定的半径值画出来的,半径是根据圆圈内的角点组成的框和ground truth的IOU值大于0.7而设定的,圆圈内的点的数值是以圆心往外呈二维的高斯分布;白色虚线是一个预测框,能够看出这个预测框的两个角点和ground truth并不重合,可是该预测框基本框住了目标,所以是有用的预测框,因此要有必定权重的损失返回,这就是为何要对不一样负样本点的损失函数采起不一样权重值的缘由。post
CornerNet的第二个输出是offset,这个值和目标检测算法中预测的offset相似却彻底不同,说相似是由于都是偏置信息,说不同是由于在目标检测算法中预测的offset是表示预测框和anchor之间的偏置,而这里的offset是表示在取整计算时丢失的精度信息,也就是公式2所表达的内容。
咱们知道从输入图像到特征图之间会有尺寸缩小,假设缩小倍数是n,那么输入图像上的(x,y)点对应到特征图上就以下式子
式子中的符号是向下取整,取整会带来精度丢失,这尤为影响小尺寸目标的回归,Faster RCNN中的 ROI Pooling也是有相似的精度丢失问题。因此经过公式2计算offset,而后经过公式3的smooth L1损失函数监督学习该参数,和常见的目标检测算法中的回归支路相似。学习
CornerNet的第三个输出是embedding,对应文章中group corner的内容。前面介绍了关于角点的检测,在那部分中对角点的预测都是独立的,不涉及一个目标的一对角点的概念,所以如何找到一个目标的两个角点就是第三个输出embedding作的工做。这部分是受associative embedding那篇文章的启发,简而言之就是基于不一样角点的embedding vector之间的距离找到每一个目标的一对角点,若是一个左上角角点和一个右下角角点属于同一个目标,那么两者的embedding vector之间的距离应该很小。测试
embedding这部分的训练是经过两个损失函数实现的,etk表示第k个目标的左上角角点的embedding vector,ebk表示第k个目标的右下角角点的embedding vector,ek表示etk和ebk的均值。公式4用来缩小属于同一个目标(第k个目标)的两个角点的embedding vector(etk和ebk)距离。公式5用来扩大不属于同一个目标的两个角点的embedding vector距离。atom
最后一部分是corner pooling。首先看看为何要引入corner pooling,如图Figure2所示。由于CornerNet是预测左上角和右下角两个角点,可是这两个角点在不一样目标上没有相同规律可循,若是采用普通池化操做,那么在训练预测角点支路时会比较困难。考虑到左上角角点的右边有目标顶端的特征信息(第一张图的头顶),左上角角点的下边有目标左侧的特征信息(第一张图的手),所以若是左上角角点通过池化操做后能有这两个信息,那么就有利于该点的预测,这就有了corner pooling。
Figure3是针对左上角点作corner pooling的示意图,该层有2个输入特征图,特征图的宽高分别用W和H表示,假设接下来要对图中红色点(坐标假设是(i,j))作corner pooling,那么就计算(i,j)到(i,H)的最大值(对应Figure3上面第二个图),相似于找到Figure2中第一张图的左侧手信息;同时计算(i,j)到(W,j)的最大值(对应Figure3下面第二个图),相似于找到Figure2中第一张图的头顶信息,而后将这两个最大值相加获得(i,j)点的值(对应Figure3最后一个图的蓝色点)。右下角点的corner pooling操做相似,只不过计算最大值变成从(0,j)到(i,j)和从(i,0)到(i,j)。
Figure6也是针对左上角点作corner pooling的示意图,是Figure3的具体数值计算例子,该图一共计算了4个点的corner pooling结果。第二列的数值计算和Figure3介绍的同样,好比第一行第一个图中的0值点,计算该点的最大值时是计算该点和其右侧的值为2的点的最大值,所以获得的就是2。
Figure7是Figure4中预测模块的详细结构,该结构包括corner pooling模块和预测输出模块两部分,corner pooling模块采用了相似residual block的形式,有一个skip connection,虚线框部分执行的就是corner pooling操做,也就是Figure6的操做,这样整个corner pooling操做就介绍完了。
模型测试时候的几个细节:一、在获得预测角点后,会对这些角点作NMS操做,选择前100个左上角角点和100个右下角角点。二、计算左上角和右下角角点的embedding vector的距离时采用L1范数,距离大于0.5或者两个点来自不一样类别的目标的都不能构成一对。三、测试图像采用0值填充方式获得指定大小做为网络的输入,而不是采用resize,另外同时测试图像的水平翻转图并融合两者的结果。四、最后经过soft-nms操做去除冗余框,只保留前100个预测框。
实验结果:
Table1是关于conner pooling的对比实验,能够看出添加conner pooling(第二行)对效果的提高比较明显,这种提高尤为在目标尺度比较大的数据中表现明显。
Table2是关于对不一样位置负样本采起不一样权重的损失函数的效果。第一行是不采用这种策略的效果;第二行是采用固定半径值的效果,能够看出提高比较明显;第三行是采用基于目标计算获得的半径值的效果(这篇文章所采用的),效果获得进一步提高。
Table3是关于这篇文章的几个创新点效果。第一行是这篇文章的算法结果;第二行是将角点预测结果用ground truth代替,能够看到提高很是大;第三行是进一步将偏置用ground truth代替,相比之下提高会小不少。这说明目前该算法的瓶颈主要在于角点预测。
Table4是connerNet和其余目标检测算法的效果对比,能够看出模型效果仍是很不错的。
整篇文章看下来收获仍是比较多的,但愿目标检测领域可以继续百花齐放。不过比较好奇算法的速度,在实验部分没有看到对比。