Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet | 全面超越ResNet

与以前ViT、Detr、Deit等不一样之处在于:本文针对ViT的特征多样性、结构化设计等进行了更深刻的思考,提出了一种新颖的Tokens-to-Token机制,用于同时建模图像的局部结构信息与全局相关性,同时还借鉴了CNN架构设计思想引导ViT的骨干设计。最终,仅仅依赖于ImageNet数据,而无需JFT-300M预训练,所提方案便可取得全面超越ResNet的性能,且参数量与计算量显著下降;与此
相关文章
相关标签/搜索