本文深度解读小米 AI 实验室 AutoML 团队(做者:初祥祥、周天宝、张勃、李吉祥)在可微分神经网络搜索(DARTS)方向的最新成果 Fair DARTS,该工做已被ECCV 2020 接收。git
该论文从公平性角度思考DARTS现存的问题并提出了有效的解决方案,另外本文设计了一种辅助损失函数,解决了离散化误差的难题。
github
01.微信
创新点和贡献网络
1. 揭示可微分搜索中 DARTS 出现跳接操做(Skip Connections, SC)大量汇集的缘由,即 DARTS 方法存在 skip 操做具备明显的不公平竞争优点,以及 softmax 操做潜在的排外竞争方式(两个结点之间只选择一个操做)。所以消除两者之一能够解决这个问题,本文方法采起了打破竞争(公平)的方法,即用 sigmoid 替代 softmax 来容许选择多个操做。架构
2. DARTS 是离散问题进行连续松散的解决方法,最后根据连续的结构权重编码来决定选择更具优点的 op,一般连续值和 0 和 1 之间有很大的差距,从而致使选择过程容易出现误差。本文提出在公平条件下使用 0-1 损失将结构权重推向 0-1 两端,从而减少连续编码转成 one-hot 时存在的误差。app
3. 本文从公平性框架内从新解读现有解决 SC 汇集问题的方法,并指出现有方法的合理性。框架
研究动机dom
1. DARTS 搜索结果容易出现大量的 SC,这种模型的性能一般不佳。关于为何会出现 SC 汇集,目前还不清楚根本缘由。本文经过不一样的随机数种子重复 4 次实验,把每一个节点中 softmax(α) 最高的两个操做选出来进行统计,证明 SC 急剧增多广泛存在(Fig2)。机器学习
2. 在 ImageNet 上进行 DARTS 搜索实验,SC(砖红色)汇集更加明显(Fig.1)。编辑器
3. 根据实验现象分析 SC 汇集致使性能崩塌的缘由: 竞争环境,存在不公平优点,两者同时做用致使 SC 汇集,进而带来性能崩塌。
1)SC 相似 ResNet 的 residual 模块,对训练是有益(Fig3),因此它的 α 权重提高快,对模型准确率没有获得相应程度的提高。
2)softmax 提供了一个潜在的排他性竞争,即在 softmax 的机制下,他强我弱,当 SC 初现苗头时,会加重这种趋势。
4. 分析连续编码离散化时的差别:
连续值和离散值时存在较大差距(即连续 softmax(α) 权重最终须要转为 one-hot 编码来肯定最终 op)。实验发现搜索阶段得出的 softmax(α) 值都是很接近的(4次重复试验发现 softmax(α) 值总在 0.1 到 0.3 之间,离指望的 1 很远),致使最终转化为 one-hot 编码时常常须要作出模糊的决策(例如两个不一样操做的 softmax(α) 值是 0.176 和 0.174,很难判断哪一个更优),因此连续编码离散化存在必定的差别。如 Fig4 中,softmax (α) 值都十分接近。

方法
1. 提出使用 sigmoid 替代 softmax 处理结构权重,在这种状况下,多个 op 之间不会相互抑制,从而打破的 SC 能够发挥做用的竞争环境。具体地,将下式
2. 提出添加辅助的 0-1 损失来缩小连续编码离散化的差距:在公平条件下,咱们得以将不一样操做的权重参数推向 0 或 1,扩大相对差别,即要么靠近 0 要么靠近 1
实验
1. 模型在 CIFAR-10 数据集上对比,在使用了更低的乘加数和params后,精度可达 97.46%:
2. 模型在 ImageNet 数据集上的对比:
3. 模型结构
4. 消融实验
1)文中认为 SC 有明显的不公平优点,那去掉 SC,在竞争环境的搜索过程会公平一些吗?该文发现去掉 SC 后没有出现某个 op 集聚的问题(Fig 7)。
2)去掉辅助 0-1损失后,结构权重分布很宽(0-0.6),加上后能让结构权重分布趋向两极(0 或 1),从而很好地解决连续编码离散化的差别问题(Fig 8)
思考
从文中认为的 SC 集聚的缘由出发,能够发现,现有对于这个问题的有效改进的方法,均可以获得合理的解释。
1. PDARTS 在 SC 操做后添加 dropout,相似于抑制 SC 的优点,能够减弱其带来的影响。
2. RobustDARTS 中全部的操做都添加 dropout 一样能下降不公平的优点,但和 PDARTS同样, dropout rate 比较难于选择。
3. DARTS+ 中经过早停机制来限定 SC 的数量,在为干预大量 SC 出现,限制了不公平优点,但限制多少合适是一个问题。
4. 直接限定 SC 的数量是很强的人为先验,这样的模型一般都是比较优秀的模型。随机采样(Random M=2)知足该限制条件的模型进行完整训练,平均精度都高于 97% ,并且无需DARTS 搜索 (Table 3)
5. 根据前述分析可知,对 SC 输出加随机噪声也能干扰 SC 的不公平竞争优点,Table 3 中添加余弦递减的高斯噪声后,其搜索模型的平均精度较高 97.12%。
6. 至因而去掉不公平优点仍是改变排他性竞争环境,FairDARTS 选择了后者(即更换 softmax 为 sigmoid,从而变竞争为合做),这样作更加简单且有效,同时还为消除连续编码离散化差别提供了铺垫(使用辅助0-1损失的前提条件是非排他环境)。
论文: 《Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search》
地址:https://arxiv.org/abs/1911.12126
开源地址:https://github.com/xiaomi-automl/FairDARTS
AutoML 团队招聘:AutoML/NAS 方向,全职/实习生
简历发送至 zhangbo11@xiaomi.com

备注:NAS
AutoML&NAS交流群
自动机器学习、神经架构搜索等技术,
若已为CV君其余帐号好友请直接私信。
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
投稿:amos@52cv.net
网站:www.52cv.net

在看,让更多人看到
本文分享自微信公众号 - 我爱计算机视觉(aicvml)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。