ECCV 2020 | 小米提出 Fair DARTS ：公平的可微分神经网络搜索

本文深度解读小米 AI 实验室 AutoML 团队（做者：初祥祥、周天宝、张勃、李吉祥）在可微分神经网络搜索（DARTS）方向的最新成果 Fair DARTS，该工做已被ECCV 2020 接收。git

该论文从公平性角度思考DARTS现存的问题并提出了有效的解决方案，另外本文设计了一种辅助损失函数，解决了离散化误差的难题。
github

01.微信

创新点和贡献网络

1. 揭示可微分搜索中 DARTS 出现跳接操做（Skip Connections, SC）大量汇集的缘由，即 DARTS 方法存在 skip 操做具备明显的不公平竞争优点，以及 softmax 操做潜在的排外竞争方式（两个结点之间只选择一个操做）。所以消除两者之一能够解决这个问题，本文方法采起了打破竞争（公平）的方法，即用 sigmoid 替代 softmax 来容许选择多个操做。架构

2. DARTS 是离散问题进行连续松散的解决方法，最后根据连续的结构权重编码来决定选择更具优点的 op，一般连续值和 0 和 1 之间有很大的差距，从而致使选择过程容易出现误差。本文提出在公平条件下使用 0-1 损失将结构权重推向 0-1 两端，从而减少连续编码转成 one-hot 时存在的误差。app

3. 本文从公平性框架内从新解读现有解决 SC 汇集问题的方法，并指出现有方法的合理性。框架

02.

研究动机dom

1. DARTS 搜索结果容易出现大量的 SC，这种模型的性能一般不佳。关于为何会出现 SC 汇集，目前还不清楚根本缘由。本文经过不一样的随机数种子重复 4 次实验，把每一个节点中 softmax(α) 最高的两个操做选出来进行统计，证明 SC 急剧增多广泛存在（Fig2）。机器学习

2. 在 ImageNet 上进行 DARTS 搜索实验，SC（砖红色）汇集更加明显（Fig.1）。编辑器

3. 根据实验现象分析 SC 汇集致使性能崩塌的缘由：竞争环境，存在不公平优点，两者同时做用致使 SC 汇集，进而带来性能崩塌。

1）SC 相似 ResNet 的 residual 模块，对训练是有益（Fig3），因此它的 α 权重提高快，对模型准确率没有获得相应程度的提高。

2）softmax 提供了一个潜在的排他性竞争，即在 softmax 的机制下，他强我弱，当 SC 初现苗头时，会加重这种趋势。

4. 分析连续编码离散化时的差别：

连续值和离散值时存在较大差距（即连续 softmax(α) 权重最终须要转为 one-hot 编码来肯定最终 op）。实验发现搜索阶段得出的 softmax(α) 值都是很接近的（4次重复试验发现 softmax(α) 值总在 0.1 到 0.3 之间，离指望的 1 很远），致使最终转化为 one-hot 编码时常常须要作出模糊的决策（例如两个不一样操做的 softmax(α) 值是 0.176 和 0.174，很难判断哪一个更优），因此连续编码离散化存在必定的差别。如 Fig4 中，softmax (α) 值都十分接近。

03.

方法

1. 提出使用 sigmoid 替代 softmax 处理结构权重，在这种状况下，多个 op 之间不会相互抑制，从而打破的 SC 能够发挥做用的竞争环境。具体地，将下式

变为

2. 提出添加辅助的 0-1 损失来缩小连续编码离散化的差距：在公平条件下，咱们得以将不一样操做的权重参数推向 0 或 1，扩大相对差别，即要么靠近 0 要么靠近 1

04.

实验

1. 模型在 CIFAR-10 数据集上对比，在使用了更低的乘加数和params后，精度可达 97.46%：

2. 模型在 ImageNet 数据集上的对比：

3. 模型结构

4. 消融实验

1）文中认为 SC 有明显的不公平优点，那去掉 SC，在竞争环境的搜索过程会公平一些吗？该文发现去掉 SC 后没有出现某个 op 集聚的问题（Fig 7）。

2）去掉辅助 0-1损失后，结构权重分布很宽（0-0.6），加上后能让结构权重分布趋向两极（0 或 1），从而很好地解决连续编码离散化的差别问题（Fig 8)

05.

思考

从文中认为的 SC 集聚的缘由出发，能够发现，现有对于这个问题的有效改进的方法，均可以获得合理的解释。

1. PDARTS 在 SC 操做后添加 dropout，相似于抑制 SC 的优点，能够减弱其带来的影响。

2. RobustDARTS 中全部的操做都添加 dropout 一样能下降不公平的优点，但和 PDARTS同样， dropout rate 比较难于选择。

3. DARTS+ 中经过早停机制来限定 SC 的数量，在为干预大量 SC 出现，限制了不公平优点，但限制多少合适是一个问题。

4. 直接限定 SC 的数量是很强的人为先验，这样的模型一般都是比较优秀的模型。随机采样（Random M=2）知足该限制条件的模型进行完整训练，平均精度都高于 97% ，并且无需DARTS 搜索 (Table 3)

5. 根据前述分析可知，对 SC 输出加随机噪声也能干扰 SC 的不公平竞争优点，Table 3 中添加余弦递减的高斯噪声后，其搜索模型的平均精度较高 97.12%。

6. 至因而去掉不公平优点仍是改变排他性竞争环境，FairDARTS 选择了后者（即更换 softmax 为 sigmoid，从而变竞争为合做），这样作更加简单且有效，同时还为消除连续编码离散化差别提供了铺垫（使用辅助0-1损失的前提条件是非排他环境）。

论文: 《Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search》

地址：https://arxiv.org/abs/1911.12126

开源地址：https://github.com/xiaomi-automl/FairDARTS

AutoML 团队招聘：AutoML/NAS 方向，全职/实习生

简历发送至 zhangbo11@xiaomi.com

备注：NAS

AutoML&NAS交流群

自动机器学习、神经架构搜索等技术，

若已为CV君其余帐号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

本文分享自微信公众号 - 我爱计算机视觉（aicvml）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。