BERT基础（二）：Transformer 详解

时间 2020-12-30

原文原文链接

Transformer 中 self - attention 的详解参考： BERT基础（一）：self_attention自注意力详解在 Transformer 之前，多数基于神经网络的机器翻译方法依赖于循环神经网络（RNN），后者利用循环（即每一步的输出馈入下一步）进行顺序操作（例如，逐词地翻译句子）。尽管 RNN 在建模序列方面非常强大，但其序列性意味着该网络在训练时非常缓慢，因为长句需要