译:Convolutional Two-Stream Network Fusion for Video Action Recognition

用于视频动作识别的卷积双流网络融合 **摘要:**近年来,卷积神经网络对视频中人类行为识别的应用提出了不同的解决方案,用于整合外观(spatial)和运动(temporal)信息。为了更好地利用时空信息,我们研究了许多在空间和时间上融合卷积网络层的方法。我们得出以下结论: (i)不是在softmax层进行融合,而是在一个卷积层上融合空间和时间网络,即不会损失性能,而且在参数上有大量的节省;(ii)
相关文章
相关标签/搜索