X3D: Expanding Architectures for Efficient Video Recognition 论文学习

时间 2021-01-13

标签深度学习视频识别繁體版

原文原文链接

Abstract 本文提出的 X3D 是一组高效率的视频网络，沿着网络的空间、时间、宽度和深度维度来对较小的2D图像分类结构进行扩展。受到机器学习中特征选择方法的启发，本文使用了一个简单的、逐步的网络扩展方法，每一步中只扩展单个维度，这样就可以实现准确度与复杂度的平衡。为了将X3D的复杂度扩展至一个目标程度，在前向扩展操作之后会跟着一个反向的收缩操作。X3D实现了state of the art的

>>阅读原文<<