译：Convolutional Two-Stream Network Fusion for Video Action Recognition

时间 2020-12-26

原文原文链接

用于视频动作识别的卷积双流网络融合 **摘要：**近年来，卷积神经网络对视频中人类行为识别的应用提出了不同的解决方案，用于整合外观（spatial）和运动(temporal)信息。为了更好地利用时空信息，我们研究了许多在空间和时间上融合卷积网络层的方法。我们得出以下结论：（i）不是在softmax层进行融合，而是在一个卷积层上融合空间和时间网络，即不会损失性能，而且在参数上有大量的节省;（ii）

>>阅读原文<<