Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks

论文简介 在这项工作中,我们研究了一种新的攻击类型,称为干净标签攻击,攻击者注入的训练示例被认证机构清晰地标记,而不是被攻击者自己恶意地贴上标签。我们的策略假设攻击者不了解训练数据,而是了解模型及其参数。攻击者的目标是当网络在包含中毒实例的增强数据集上进行重新训练后,使重新训练的网络将一个特定测试实例从一个类错误地分类为她选择的另一个类。除了目标的预期预测错误之外,受害的分类器的性能下降并不明显。
相关文章
相关标签/搜索