Spatiotemporal Residual Networks for Video Action Recognition

这篇文章出自2016 NIPS, 作者是格林茨大学的Feichtenhofer。 背景:几乎现在行为识别领域,比较work的工作都是基于二流网络。其中appearance和motion分别由两个不同的网络学习,并将两个网络的结果做融合后产生识别。 本文创新部分: a、将二维空间ResNet网络部分扩展到时间域。即原来的二维空间网络W*H*C 映射到W*H*T*C, 具体初始化方法如下: 这样的好处
相关文章
相关标签/搜索