重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性

重磅MIT开源人工智能算法评估和理解对抗Logit配对的稳健性摘要:我们评估了对抗性Logit Pairing的稳健性,这是最近针对广告范例提出的防御措施。 我们发现,使用Adversarial Logit Pairing训练的网络在目标对抗性攻击下达到0.6%的正确分类率,这是一种考虑防御的威胁模型。 我们简要概述了所考虑的防御和威胁模型/声明,以及对我们攻击的方法和结果的讨论,这可能会提供有关
相关文章
相关标签/搜索