李宏毅学习笔记15.Transformer

文章目录 Sequence to Sequence Self-Attention 生成过程 并行过程 小结 Multi-head Self-attention(2 heads as example) Positional Encoding Seq2seq with Attention 总结 应用 在线LaTeX公式编辑器 看封面就知道,这节课是讲transformer,它的主要应用是BERT,BE
相关文章
相关标签/搜索