结合源码的Transformer最全面、最深度的解析

0. 模型架构 举例:中文输入为“我爱你”,通过 Transformer 翻译为 “I Love You”。 1. Inputs和Outputs(shifted right)整块部分 1.1 Embedding 我们不直接给 Transformer 输入简单的one-hot vector,原因包括这种表达方式的结果非常稀疏,非常大,且不能表达 word 与 word 之间的特征。所以这里对词进行
相关文章
相关标签/搜索