Attention Is All You Need论文笔记

Attention Is All You Need 摘要 提出一种新的简单的网络结构,仅基于注意力机制 背景 1.循环模型在计算隐藏状态ht时,使用了前面的ht-1和位置t,这种顺序性使得模型无法实现并行计算 2.注意力机制允许对依赖项进行建模,忽略输入或者输出项的距离 3.自注意是一种注意力机制,能够联系一个序列中的不同位置来计算序列表示 模型结构 1.encoder将输入的符号表示序列map到
相关文章
相关标签/搜索