《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

时间 2020-12-24

原文原文链接

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》作者主要观点： 3D ResNets要比相同深度的2D ResNets，在大规模动作识别基准（如Sports-1M和Kinetics）上的训练识别结果更好。研究方法：实验分两部分：以18层ResNet模型为基础，将本文提出的时空卷积与以往的卷积方