【半监督学习】MixMatch、UDA、ReMixMatch、FixMatch

时间 2020-04-19

标签半监督学习 mixmatch uda remixmatch fixmatch 繁體版

原文原文链接

半监督学习（Semi-Supervised Learning，SSL）的 SOTA 一次次被 Google 刷新，从 MixMatch 开始，到同期的 UDA、ReMixMatch，再到 2020 年的 FixMatch。ide

这四篇深度半监督学习方面的工做，都是从 consistency regularization 和 entropy minimization 两方面入手：学习

consistency regularization：一致性约束，给输入图片或者中间层注入 noise，模型的输出应该尽量保持不变或者近似。
entropy minimization：最小化熵，模型在 unlabeled data 上的熵应该尽量最小化。Pseudo label 也隐含地用到了 entropy minimization。

Consistency Regularization

对于每个 unlabeled instance，consistency regularization 要求两次随机注入 noise 的输出近似。背后的思想是，若是一个模型是鲁棒的，那么即便输入有扰动，输出也应该近似。blog

对于 consistency regularization 来讲，如何注入 noise 以及如何计算近似，就是每一个方法的不一样之处。注入 noise 能够经过模型自己的随机性（如 dropout）或者直接加入噪声（如 Gaussian noise），也能够经过 data augmentation；计算一致性的方法，能够使用 L2，也能够使用 KL divergency、cross entropy。图片

Entropy Minimization

MixMatch、UDA 和 ReMixMatch 经过 temperature sharpening 来间接利用 entropy minimization，而 FixMatch 经过 Pseudo label 来间接利用 entropy minimization。能够认为，只要经过获得 unlabeled data 的人工标签而后按照监督学习的方法（如 cross entropy loss）来训练的，都间接用到了 entropy minimization。由于人工标签都是 one-hot 或者近似 one-hot 的，若是 unlabeled data 的 prediction 近似人工标签，那么此时无标签数据的熵确定也是较小的。ip

为何这里叫作人工标签而不是伪标签？通常而言，在半监督中，伪标签（pseudo label）特指 hard label，即 one-hot 类型的或者经过 argmax 获得的。[4] 而 MixMatch、UDA、ReMixMatch 获得的人工标签并非 hard label。ssl

Entropy minimization 能够在计算 unlabeled data 部分的 loss 和 consistency regularization 一块儿实现。ci

temperature sharpening 和 pseudo label 都获得了 unlabeled data 的人工标签，当前者 temperature=0 时，二者相等。pseudo label 要比 temperature sharpening 要简单，由于少了一个 temperature 超参数。get

若是不考虑 entropy minimization，那么 temperature sharpening 和 pseudo label 其实都是不须要的，只须要两次随机注入 noise 的 unlabeled instance 输出近似，就能够保证 consistency regularization。it

或者说，获得 unlabeled data 的人工标签，能够使得 entropy minimization 和 consistency regularization 经过一项 loss 来完成。io

结合 Consistency Regularization 和 Entropy Minimization

通常来讲，半监督学习中的 unlabeled data 会使用所有训练数据集，即有标签的样本也会做为无标签样原本使用。

半监督学习中，labeled data 的标签都是给定的，而 unlabeled data 的标签都是不知道的。那么如何得到 unlabeled data 的人工标签（artificial label），MixMatch、UDA、ReMixMatch 和 FixMatch 的作法或多或少都不相同：

MixMatch：平均 K 次 weak augmentation（如 shifting 和 flipping）的 predictions ，而后通过 temperature sharpening；
UDA：一次 weak augmentation 的 prediction，而后通过 temperature sharpening；
ReMixMatch：一次 weak augmentation 的 prediction，而后通过 distribution alignment，最后通过 temperature sharpening；
FixMatch：一次 weak augmentation 的 prediction，而后 argmax 获得 hard label（pseudo label）。

Fig.1 MixMatch 人工标签 (soft label)

获得了人工标签，咱们就能够按照监督学习的方式来训练，这种思考方式就利用了 entropy minimization。而从 unlabeled data 的 consistency regularization 角度思考，咱们须要注入不一样的 noise，使得 unlabeled data 的 predictions 和它们的人工标签一致。

MixMatch、UDA、ReMixMatch 和 FixMatch 都利用 data augmentation 改变输入样原本注入 noise，不一样的是 data augmentation 的具体方式和强度：

MixMatch：一次 weak augmentation 获得 prediction，这就和正常的监督训练同样，只是 unlabeled loss 用的是 L2 而已；
UDA：一次 strong augmentation（RandAugment）获得 prediction；
ReMixMatch：屡次 strong augmentation（CTAugment）获得 predictions，而后同时参与 unlabeled loss 的计算，即一个 unlabeled instance 一个 step 屡次加强后计算屡次 loss；
FixMatch：一次 strong augmentation（RandAugment 或 CTAugment）获得 prediction。

Fig.2 FixMatch 流程图

从 UDA 和 ReMixMatch 开始，strong augmentation 引入了半监督训练。UDA 使用了做者以前提出的 RandAugment 的 strong augmentation 方式，而 ReMixMatch 提出了一种 CTAugment。FixMatch 就把 UDA 和 ReMixMatch 中用到的 strong augmentation 都拿来用了一遍。

Fig.3 weak augmentaion、strong augmentation 及 temperature sharpening 使用状况

对于 unlabeled data 部分的 loss：

MixMatch：L2 loss；
UDA：KL divergency；
ReMixMatch：cross entropy（包括自监督的 rotation loss 和没有使用 mixup 的 pre-mixup unlabeled loss）；
FixMatch：带阈值的 cross entropy。

FixMatch: Simplifying SSL with Consistency and Confidence

FixMatch 简化了 MixMatch、UDA 和 ReMixMatch，而后得到了更好的效果:

首先，temperature sharpening 换成 pseudo label，这是一个简化；
其次，FixMatch 经过设定一个阈值，在计算 unlabeled loss 时，对 prediction 的 confidence 超过阈值的 unlabeled instance 才算入 unlabeled loss，这样使得 unlabeled loss 的权重能够固定，这是第二个简化。

Fig.4 Error rates for CIFAR-10, CIFAR-100 and SVHN on 5 different folds.

References

[1] Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., Raffel, C. (2019). MixMatch: A Holistic Approach to Semi-Supervised Learning arXiv https://arxiv.org/abs/1905.02249
[2] Berthelot, D., Carlini, N., Cubuk, E., Kurakin, A., Sohn, K., Zhang, H., Raffel, C. (2019). ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring arXiv https://arxiv.org/abs/1911.09785
[3] Xie, Q., Dai, Z., Hovy, E., Luong, M., Le, Q. (2019). Unsupervised Data Augmentation for Consistency Training arXiv https://arxiv.org/abs/1904.12848
[4] Sohn, K., Berthelot, D., Li, C., Zhang, Z., Carlini, N., Cubuk, E., Kurakin, A., Zhang, H., Raffel, C. (2020). FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence arXiv https://arxiv.org/abs/2001.07685