基于深度self-attention的字符集语言模型(transformer)论文笔记

论文题目:Character-Level Language Modeling with Deeper Self-Attentiongit 论文地址:https://arxiv.org/abs/1808.04444v1github 摘要       LSTM和其余RNN的变体在字符级别的语言建模方面取得了很好的成功。这些模型通常状况下都会使用反向传播来进行训练,并一般把这些模型的成功归结与RNN结构
相关文章
相关标签/搜索