《A Closer Look at Spatiotemporal Convolutions for Action Recognition》总结

《A Closer Look at Spatiotemporal Convolutions for Action Recognition》   作者主要观点: 3D ResNets要比相同深度的2D ResNets,在大规模动作识别基准(如Sports-1M和Kinetics)上的训练识别结果更好。   研究方法: 实验分两部分: 以18层ResNet模型为基础,将本文提出的时空卷积与以往的卷积方
相关文章
相关标签/搜索