网易易盾李雨珂：服务性能+算法肯定性优化

时间 2019-11-29

原文原文链接

人工智能取代人类的言论一直甚嚣尘上，而深度学习算法经过大量的样本数据也能帮助人工对图像、视频、音频中的信息作出识别，本次采访邀请到网易易盾的资深算法专家李雨珂，他将会为你们解答深度学习在实际应用中的样本攻防问题以及短时间内人工审核在内容安全领域的不可替代性。算法

文/ 李雨珂安全

整理 / LiveVideoStack网络

LiveVideoStack：李雨珂你好，感谢接受LiveVideoStack的采访，可否向LiveVideoStack的读者简单介绍下本身和负责的工做？

李雨珂：LiveVideoStack的读者大家好，我是来自网易易盾的人工智能算法工程师，网易易盾是国内领先的内容安全和业务安全服务商。我我的很长时间都在从事算法应用相关的工做，目前主要负责推动人工智能算法在多媒体内容审核中的应用，包括了借助深度学习方法自动鉴别图像、视频、音频中的不良信息。机器学习

LiveVideoStack：从我的经从来看，你曾从事过电商领域会员营销的算法工做，与如今的深度学习图像算法相比二者在工做内容上有哪些不一样？

李雨珂：会员营销算法主要针对用户将来行为、偏好的预估，目前每每是传统机器学习方法和深度方法结合使用。图像算法和会员营销算法相比在特征、模型和评估上会有一些差别。特征方面，图像的特征都是从整图中提取的，不在须要额外输入信息，而会员的属性、历史行为等特征须要额外进行关联和收集，从因果关系上来讲，一张图片的内容决定了它的性质，而一个用户的属性、历史行为信息和他将来将要发生的行为之间的关联性其实不是很强。模型方面，图像更可能是空间上的建模，而会员算法须要考虑时序方面的建模。评估方面，图像任务每每能够构建出相对充分的测试集，而会员营销算法的评估更依赖线上的AB测试。ide

整体来讲，会员营销算法的难度在于问题自己的不肯定性，而内容安全领域内图像算法的难点主要在于小目标、模糊目标和多尺度问题。实际上，除了图像算法外，网易易盾在用户相关的算法方面也有较好的积累，在内容安全、业务安全场景中也发挥着重要的做用。性能

LiveVideoStack：提到深度学习大众每每都会将其和人脑智能联系起来，二者在你看来有哪些相同和不一样的地方？

李雨珂：咱们对大脑的认识是是极其有限的，深度学习和大脑的工做机制可以创建必定的联系，好比感觉野、层级结构的概念等等，但这种联系更可能是感官上的联系，生物大脑的复杂程度是现有的深度学习网络不可比拟的，单独一个神经元的结构和性质已经足以让科研工做者投入长期的研究了。学习

从学习过程来看，深度网络学习认识猫和狗的区别须要很是大量的样本，而大脑只须要学习少许几个例子就能够作推理了。我我的以为深度学习是一个很是好用的拟合器、分类器，而生物智能有更加全面的能力和潜力，包括推理方面。测试

LiveVideoStack：全部的深度学习模型在上线后都会存在样本攻防问题，网易易盾在这方面有哪些独到的应对策略？

李雨珂：网易易盾在这方面确实有不少投入。主要是从两个方面来作的，一个是前期预防，另外一个是后期学习升级。预防方面，咱们会从数据扩充、数据加强、训练方法、算法流程等方面着手，使咱们的算法模型自然地能够应对一部分对抗的状况。但因为攻击的成本相对较低，样本变化新型多样，因此在后期咱们会结合其余图像维度、用户维度等技术手段进行更全面的分析，从而快速有效地缓解这一类问题，此外，咱们同时会回流数据进行分析、优化，继续增强模型的对抗能力。优化

LiveVideoStack：目前的在数据层面深度机器学习还不能作到对数据100%准确率的识别，对小部分嫌疑类型数据经过模型后还须要进行人工的二次审核，随着技术的发展，深度学习可否作到彻底替代人工审核？

李雨珂：从审核准确率上来看，咱们发现机器其实在图像任务上是能够接近甚至超过人类的，但机器可能会在人类容易判断的例子上犯错，结合刚才提到深度学习和人脑关系的问题，机器更像是死记硬背，而人工拥有触类旁通的优点。人工智能

我以为实际操做过程当中须要机器和人工更加有效地配合来提高审核的效果，机器能够协助人工减轻审核负担，人工能够帮助机器提高自动化效果。因为内容安全领域对审核结果有很是高的要求，而人工有不可替代的优点，例如人工在简单样例上不容易犯错，而且没有样本攻防的问题，因此机器彻底取代人工短时间来看并不现实。网易易盾拥有专业的内容审核团队，拥有完善的审核运营策略，是易盾服务效果的重要保障。

LiveVideoStack：网易易盾的深度学习图像算法在内容安全领域相比其余厂商有哪些核心优点？

李雨珂：网易易盾图像算法在内容安全领域长期深耕细做，根据实际业务需求高效地、集中地进行了效果优化。在数据层面，咱们积累了海量的UGC数据并进行了有效的样本挖掘；在算法层面，咱们针对业务场景作了不少网络结构、训练方法、模型融合上的定向优化，可以召回大量困难样例；在效果保障方面，咱们拥有可靠的算法效果测试经验和完善的测试流程。我以为咱们的核心优点并非某一个小点，而是在解决内容安全相关问题的过程当中对每个算法细节都有高质量的把控。

LiveVideoStack：5G商用会导致数据流量爆发式增加，这会给深度学习算法带来哪些挑战？网易易盾对此都作了哪些准备？

李雨珂：这个问题也正是网易易盾正在关心的问题，数据的爆发式增加会给算法服务带来巨大的压力，易盾算法团队在保证算法效果的同时也持续关注算法性能的提高，方法上主要是从模型压缩和算法流程优化两方面来进行的，目前来看，咱们的算法服务每过一个季度都会产生很是显著的性能提高。另外一方面，数据的增加也对算法的肯定性提出了更高的要求，不然留给人工二次审核的数据量会很是庞大，易盾算法团队也在不断努力来提升机器正确识别的比例。经过算法性能和算法输出肯定性的提高，网易易盾有信心迎接爆发式增加流量的考验。