重磅!刷新两项世界纪录的腾讯优图人脸检测算法DSFD开源了!

近日,知名开源社区Github上有个名为DSFD(Dual Shot Face Detector)的算法引发了业内关注,它正是来自于腾讯优图。目前,该算法已经被计算机视觉顶级会议CVPR 2019接收,而且在2018年10月刷新了两个权威的人脸检测数据集WIDER FACE和FDDB上的新纪录。git

Github开源地址:github

https://github.com/TencentYoutuResearch/FaceDetection-DSFD算法

论文公开地址:https://arxiv.org/abs/1810.10220
小程序


“三点创新”打造人脸检测领域最值得参考的代码安全



人脸检测算法是在图像上,检测出人脸的位置(一般以矩形框形式输出),是人脸配准、人脸属性识别、人脸核身、人脸检索等技术的基础。优图这次提出的DSFD人脸检测算法,主要有3点创新:
微信

(1)设计了一种新的“特征加强”模块(FEM:Feature Enhance Module)
网络

FEM在采用Top-Down层间信息融合的同时,在同一“感觉野”内作了更多的enhancement。所以在network width and depth上学习到了更有效的context和semantic信息。框架

(2)提出了“分层锚点渐进”式的代价函数监督(PAL:Progressive Anchor Loss)函数

模型采用2个层级(hierarchy),基于第一层(low-level)和第二层(high-level)的差别性,适配了不一样尺寸的anchor。在训练过程当中,PAL对整个模型造成了更有效的监督。工具

(3)设计了一种“改进的锚点匹配策略”(Improved Anchor Matching Strategy)

One-stage detector因为在输出层分配有密集的anchor,anchor与face匹配的好坏直接影响训练效果,优图的研究员们在data augmentation过程当中充分考虑了不一样大小的face和各个anchor的关系,提出了一种新的数据扩增方法。

(算法总体流程图)


效果提高,来自优图不断的研究

随着近几年人工智能技术的发展,国内外很多机构、企业都在进行人脸检测的相关研究。腾讯优图的研究员们发现,虽然以前的人脸检测算法大都采用深度学习模型,并在特征学习的过程当中也有采用特征金字塔网络(Feature Pyramid Network),但在面对遮挡、暗光、大姿态、小脸等复杂场景时,仍容易出现误检或漏检的状况。所以在FPN基础上,腾讯优图团队采用了3种不一样级联方式的空洞卷积(Dilated Convolution),设计了特征加强模块FEM,充分学习到了不一样感觉野下的人脸特征。

(复杂场景下的人脸检测效果展现)

然而,在新算法探索的过程当中,并非一路顺风的。这个项目从去年7月中旬启动,进行到第三周,检测效果已经在top5了,但优图的研究员们清楚,到这里还远远不够。在接下来的两个多月里,想要提高效果却愈来愈难。就好像登山,前面爬得很快,越到后面,对耐力和决心的要求就越高,腾讯优图高级研究员Casey回忆道:“那段时间,我和其余几位同事实验了不少方案,不少时候是多个方案同时跑,甚至有些方案跑了4-5天后,发现失败了,又得作新的尝试。”失败后,几个研究员就近在工位旁边的玻璃房里,一块儿分析缘由,开始摸索下一套试跑方案。在3个多月的反复“试跑-推翻-试跑”中,最后终于跑出一套你们都满意的算法。不负所望,该算法论文也已被CVPR2019接收。


走出实验室,为业务创造价值;

代码开源,与同行共同探讨


算法从实验室走出来,不是立马就能直接套用到业务里。事实上,论文里的模型一般比较大,致使实时性很差。在使用时,需结合实际应用状况压缩、裁剪,总体模型会作必定的调整。目前,腾讯优图的人脸检测技术已在安防、金融、社交、交通、零售等多个应用场景落地,并在手机QQ、微众银行、每天P图等多个公司内外部产品上进行应用验证。以安防领域为例,腾讯优图天眼智能安防平台以警务、安防需求为导向,是优图团队面向稽查布控、刑侦办案、社会安防等多场景推出智能化海量人脸检索解决方案。

(腾讯优图天眼智能安防平台)

2017年,腾讯对外开源节奏开始加快,主要覆盖AI、云计算、腾讯游戏、腾讯安全、小程序等相关领域。而腾讯优图的计算机视觉技术的开源更是其中重要的一环。2017年7月,腾讯优图首个AI开源项目NCNN已经正式开源,这是一个为移动端极致优化的高性能神经网络前向的计算框架,是业内首个为移动端优化的开源神经网络推断库。2018年,NCNN宣布正式加入ONNX,截止目前,NCNN的Github star数已接近6000。随着计算机视觉技术的不断开源, AI开发者能更快实现从研究到模型的落地部署,也能更方便地在不一样框架间切换,为每项任务选取最优的开发工具。相信随着愈来愈多的AI机构、企业和我的的算法开源,将驱动整个AI研究更快发展和落地。


推荐阅读

8行代码中的人脸检测,识别和情感检测!


关于图书

《深度学习之TensorFlow:入门、原理与进阶实战》和《Python带我起飞——入门、进阶、商业实战》两本图书是代码医生团队精心编著的 AI入门与提升的精品图书。配套资源丰富:配套视频、QQ读者群、实例源码、 配套论坛:http://bbs.aianaconda.com 。更多请见:https://www.aianaconda.com


点击“阅读原文”进入大蛇智能鉴黄世界

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索