语言模型,bert,transformer,rnn

RNN问题: 问题. 1 导致时间太长,效率低,不能够很深 问题2: 单项信息流,‘it’需要考虑前后的情况,RNN不支持 解决方法, 多个RNN如encoder-decoder就用attention,单个RNN就是Self-attention 1.attention 如翻译模型中,需要之前的encoder信息 2.self-attention 自驱动的 Transform结构: 如翻译模型,用到
相关文章
相关标签/搜索