Attention机制学习笔记

今日阅读了两篇attention机制的论文,两篇论文思想类似,但实现原理和方法不同,在此小记,以便后用。部分内容为本人个人理解,如果错误,欢迎指正,如果侵权,请联系删除。谢谢!  转载请标明出处,谢谢 思想        Attention机制的思想其实很简单,其寻常的RNN中,对于某一个位置的预测,需参考整个句子之前全部的信息,然而,对于过长的句子,容易丢失一些信息,即使是LSTM,虽然可以在一
相关文章
相关标签/搜索