Transformer-XL:释放注意力模型的潜力

文 / Zhilin Yang 和 Quoc Le,Google AI 团队 为了正确理解一篇文章,读者有时需要返回前文,参考在几千字之前出现的一个词或句子。这是一个长程依赖性的示例。长程依赖现象在序列数据中非常常见,我们必须理解其含义,这样才能处理很多现实任务。虽然人们可以很自然地这样做,但使用神经网络对长期依赖关系进行建模仍然是一项挑战。门控循环神经网络 (RNN) 和梯度裁剪技术可以提升对长
相关文章
相关标签/搜索