Single Headed Attention RNN: Stop ThinkingWith Your Head 论文笔记

1 研究动机 选择这篇论文来读,有一点奇文共欣赏的意思。 区别于如今主流的框架比拼算力,本文从新思考是否是能够经过lstm 和 单头的attention就能够在如今的数据集上完成大型框架相似的指标。web 做者在文章里花了很大的篇幅去讨论,如何会去思考来构建sha-rnn这个模型。他类比了计算机的发展史和摩尔定律,讨论了语言模型和tokern。 做者认为减小缓存,让语言模型的实现能够跑在较低的资源
相关文章
相关标签/搜索