视频动做分类网络《TSM: Temporal Shift Module for Efficient Video Understanding》学习笔记

全文按照原文的结构来描述(能够当作是翻译),尽量保持做者原文想表达的意思,里面会穿插本身的想法(会注明),描述有问题的地方也欢迎指出。python Abstract 问题: 视频流的爆炸增加带来了对高准确度和低成本计算的视频理解挑战。常规的2D CNN 在计算上是相对廉价的,但其没法捕获时间维度的关系。而基于3D CNN 的方法能够达到良好的效果性能,但计算量大,所以部署成本很大。git 解决方案
相关文章
相关标签/搜索