源码剖析transformer、self-attention（自注意力机制）、bert原理！

时间 2020-07-25

标签源码剖析 transformer self attention 注意力机制 bert 原理繁體版

原文原文链接

首先给你们引入一个github博客，这份代码是我在看了4份transformer的源码后选出来的，这位做者的写法很是易懂，代码质量比较高。https://github.com/Separius/BERT-kerashtml 这篇文章主要跟你们分享四个点：多头机制(multi-head)、LN和GELU、位置编码。python 在这再给你们安利几篇博客，便于你们更具体的理解自注意力的内在原理。git

>>阅读原文<<