谷歌 | 大改Transformer注意力,速度、内存利用率都大幅度提升(附源代码)

欢迎关注“ 计算机视觉研究院 ” 计算机视觉研究院专栏 作者:Edison_G 长按扫描二维码关注我 回复“谷歌”获取源代码 简述: Google介绍了Performance,Transformer体系结构,它可以估计具有可证明精度的正则(Softmax)full-rank-attention Transformers,但只使用线性(相对于二次)空间和时间复杂度,而不依赖任何先验,如稀疏性或低秩。
相关文章
相关标签/搜索