理解Transformers/Bert中的一些笔记

Transformers Transformers相较于LSTM的好处就是能够将整个句子作为input来处理,依靠attention来理解词与词之间的关系,但是相对应的坏处就是失去了词的顺序这个重要的信息,意思也就是input sentence的词的顺序可以随意颠倒,也不会什么影响,所以需要额外的将词的positional information给嵌入(encode)到模型中。具体嵌入的方法有很多
相关文章
相关标签/搜索