邱锡鹏 神经网络与深度学习课程【十二】——注意力机制和外部记忆1和2

注意力机制的变体 硬性注意力 一般用的少 因为不可导 用的最多的是键值对注意力  多头注意力 和 结构化注意力 结构化的比较难  指针网络 自注意力模型: 使用RNN或者CNN 只建模了输入信息的局部依赖关系  如何处理非局部的依赖关系 可以使用全连接 但没有办法处理变长的问题  实例:  QKV模式 Query-Key-Value  细节计算:  多头自注意力模型: 成功的使用:Transfor
相关文章
相关标签/搜索