UNIVERSAL TRANSFORMERS读书笔记

ABSTRACT 作者提出了一种称为universal transformer(简称UT)的模型,总的来说,该模型就是集合了Transformer和基于RNN结构的神经网络的优点而提出的更加通用的Transformer模型,具体来说它主要结合了这两个模型中的如下优点: UTs combine the parallelizability and global receptive field of f
相关文章
相关标签/搜索