CosFace: Large Margin Cosine Loss for Deep Face Recognition

发布于2018年。

1 动机

  • 传统的DCNN的softmax缺乏判别能力,最近提出的center loss,angular softmax loss都具有相同的想法:最大化类间距离和最小化类内距离。本文提出large margin cosine loss(LMCL)。

  • 与欧几里得余量相比,角余量是首选,因为角度的余弦具有与softmax的固有一致性。余弦的公式与经常用于人脸识别的相似性度量相匹配。从这个角度来看,在不同类别之间直接引入余弦余量以改善与余弦有关的判别信息是更合理的。

  • A-softmax的决策余量取决于θ,从而导致不同类别的余量不同。在决策空间中,某些类别间特征具有较大的余量,而另一些类别间的特征具有较小的余量,这降低了辨别力。与A-Softmax不同,我们的方法在余弦空间中定义决策余量,从而避免了上述缺点。

2 工作

  • 采用最大化类间距离和最小化类内距离,提出LMCL损失函数以学习用于人脸识别的高判别深度特征。

  • 基于LMCL的超球面特征分布。提供合理的理论分析。

  • 在LFW,YTF,Megaface测试集上提高了性能。

3 Large Margin Cosine Loss

在这里插入图片描述

  • 将权重归一化,将特征归为s,消除径向方向上的变化,使得后验概率仅取决于角度的余弦。

  • 但是,由于NSL仅强调正确的分类,因此NSL所学习的功能尚不能充分区分。为了解决这个问题,我们将余弦余量引入分类边界,该边界自然地合并到Softmax的余弦公式中。

  • 为了开发大余量的分类器,加入m。改变后的损失通过在余弦空间中使用额外的余量来加强对学习特征的区分。

4 不同损失函数比较

在这里插入图片描述

  • 以二分类为例,上图是两类的分类边界。

  • Softmax其边界取决于权重向量的大小和角度的余弦,这导致余弦空间的决策区域重叠。

  • NSL通过消除径向变化,能在余弦=0的情况下对余弦空间中的测试样本进行完美分类。但是,它并不是很可靠噪声,因为没有决策余量:决策边界周围的任何微小扰动都会改变决策。

  • A-Softmax的余量在所有theta上不一致,当theta减小时,余量减小。首先,对于困难类C1和C2,它们在视觉上相似,因此在W1和W2之间具有较小的角度,因此余量较小。其次,从技术上讲,必须采用一种额外的技巧,即具有逐段的临时函数,以克服余弦函数的非单调性难题。

  • LMCL决策边界含有明显的余量,围绕决策边界(虚线)的微小干扰不太可能导致错误的决策。余弦裕度始终应用于所有样本,而不管其权重矢量的角度如何。

5 归一化特征的重要性

  • 未归一化的原始Softmax损失隐含地学习了特征向量的欧几里德范数(L2范数)和角度的余弦值。L2范数是自适应学习的,用于最小化总体损失,导致相对较弱的余弦约束。特别地,容易样本的自适应L2范数变得比硬样本大得多,以弥补余弦度量性能较差的缺点。相反,我们的方法要求整个特征向量集具有相同的L2范数,使得学习只依赖于余弦值来发展辨别能力。来自相同类别的特征向量聚在一起,而来自不同类别的特征向量在超球体的表面上被拉开。

  • 在没有对特征规范化的情况下,|x|*(cos(theta_i)-m)>|x|cos(theta_j),只要(cos(theta_i)-m)<cos(theta_j),就需要|x|最小化损失,这就退化了优化。s太小会导致收敛不充分,对于LMCL,我们还需要足够大的s来确保有足够的超空间来进行预期的大范围的特征学习。

  • 类的数量不断增加,因此在相对紧凑的空间中进行分类的难度增加,s应该更大。因此在相对紧凑的空间中进行分类的难度增加。因此,为了嵌入具有较小的类内距离和较大的类间距离的特征,需要具有大半径s的超球面。

6 m的选择

在这里插入图片描述

  • 合理的选择较大的m应该有效的促进对高判别特征的学习。当m太大时,该模型无法收敛,因为余弦约束变得更严格且难以满足。此外,具有较大m的余弦约束会迫使训练过程对嘈杂的数据更加敏感。由于无法收敛,因此不断增大的m会在某个时刻降低整体性能。

  • 实验,8个不同身份的人脸图像提取的二维特征。第一行和第二行分别表示欧几里得空间和角空间中的特征分布。我们可以观察到,原始的softmax损失会在决策边界产生歧义,而所提出的LMCL的性能要好得多。随着m的增加,不同类别之间的角度余量已被放大。

7 实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述