视频物体检测(VID) Impression Network for Video Object Detection

时间 2020-12-30

原文原文链接

SenseTime出品来源：https://arxiv.org/pdf/1712.05896.pdf 基于印象机制的高效多帧特征融合，解决defocus and motion blur等问题（即视频中某帧的质量低的问题），同时提高速度和性能。类似TSN，每个segment选一个key frame（注意，TSN做视频分类是在cnn最后才融合不同的segments）。特征融合前需要用Optica