百度世界大会公开课 | 人工智能的安全威胁：深度学习中的攻防对抗分析

时间 2020-09-18

原文原文链接

9月15日，“万物智能—百度世界2020”在线上召开。大会联合央视新闻，用线上发布会的形式，面向行业、合做伙伴、广大用户和媒体，发布了百度人工智能整年最新、最前沿的技术、产品、解决方案等成果。其中，在百度飞桨与生态公开课环节，来自百度研究院的资深安全研究员仲震宇带来了《深度学习模型的安全问题与防御》的技术分享。算法

在数据丰沛的时代，计算机能够经过自我学习得到算法，把数据转化为知识。深度学习是当前机器学习技术中最为煊赫一时的一种。深度学习的实质，就是经过构建具备不少隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提高分类或预测的准确性。安全

通俗地讲，图片识别就是经过抓取数据的核心图像特征，从而辨识数据的类型并将其归类。好比，若是想判断图片中是一辆摩托车，那就只要抓取“有两个轮子”“有踏板”等特征即可以完成判断。过去因为图片识别的精准度不高，这种判断很难由机器完成，深度学习的出现便让这一问题迎刃而解。框架

近年来，随着深度学习技术的发展和各类模型的不断涌现，基于深度学习的计算机安全应用研究也成为了计算机安全领域里的一个热门研究方向。深度学习模型容易受到对抗样本的恶意攻击，这在业内已不是新鲜事。对图像数据添加人类难以经过感官辨识到的细微扰动，即可“欺骗”模型，混淆是非，甚至无中生有。为实施此类攻击，攻击者每每须要提取模型结构、参数，继而利用特定算法针对性地生成“对抗样本”，诱导模型作出错误的，甚至攻击者预设的判别结果。机器学习

据介绍，在真实的物理世界中，依据这一原理，百度安全研究员已经进行了很多骚气的实验操做：工具

Blackhat欧洲大会上，咱们重现了大卫科波菲尔让自由女神像消失的魔法。经过控制一辆Lexus背后的显示器上显示的画面，咱们可让著名的目标检测模型YOLOv3彻底识别不出Lexus。一样的，咱们也可让一个‘中止’的交通标示在目标检测模型里被误认为是一个限速的标示。能够想象由此产生的识别错误会给安全攸关的驾驶场景带来麻烦。学习

固然，上面所提到的一些实验案例，是基于对深度学习模型高度认知的前提下，咱们把这种提早知道模型内部构造，能够利用特定算法来生成“对抗样本”的攻击，叫作“白盒攻击”。然而，对于诸如语音识别、无人驾驶等对安全性有极高要求的行业中，攻击者并不必定能获取这些深度学习模型的模型框架和训练数据等详细内部构造信息，对模型的认知程度不高，这种类型的攻击就被称为“黑盒攻击”。显然，相较而言，“黑盒攻击”的难度更大，因此 AI 开发者们最好保护好自家的 AI 模型，避免让攻击者知道其内部构造。测试

然而，只是保护好本身的模型构造就足够了吗？百度安全研究员最近研究发现 —— 黑盒模型也未必更加安全。人工智能

咱们发现许多实际分类应用的模型每每都是基于一些预训练模型。而这些预训练模型都是公开的。当攻击者把攻击目标从黑盒模型转移到它的父模型后（当中咱们用了一个指纹攻击的技术完成对父模型的匹配），攻击难度就相对的下降。而成功攻击父模型后生成的对抗样本，一样能够利用攻击迁移性的特色有效地对黑盒模型实施打击。spa

公开课的最后，百度安全研究员介绍了百度安全针对对抗样本的解决思路，以及经过对抗训练强化模型来提升深度学习模型鲁棒性的途径。百度安全针对人工智能算法安全性的研究，包括深度学习模型鲁棒性测试、形式化验证、机器识别恶意样本实时监测、黑白盒攻防等领域。3d

在深度学习对抗上，咱们在Github开源了AdvBox，Perceptron Benchmark工具。其中Perceptron Benchmark为深度学习模型的鲁棒性评估提供了标准的评测方法，同时也为模型鲁棒性的提高提供了有效的标准数据集。AdvBox集成了业界深度学习对抗的算法。此项技术已在Github完成开源，并登上了Black Hat、DEFCON等国际工业界会议，受到全球安全行业的关注和承认。同时，Advbox也已应用于百度深度学习开源平台PaddlePaddle及当下主流深度学习平台，可高效地使用最新的生成方法构造对抗样本数据集用于对抗样本的特征统计、攻击全新的AI应用，加固业务AI模型，为模型安全性研究和应用提供重要的支持。

咱们但愿可以经过百度安全的技术与服务，让更多人享受到科技带来的便利，让更多企业得到更加安全的 AI 解决方案。

点击连接，调整至1小时43分，查看完整课程视频
https://haokan.baidu.com/v?vi...