Single Headed Attention RNN: Stop ThinkingWith Your Head 论文笔记

时间 2020-01-31

标签 single headed attention rnn stop thinkingwith head 论文笔记繁體版

原文原文链接

1 研究动机选择这篇论文来读，有一点奇文共欣赏的意思。区别于如今主流的框架比拼算力，本文从新思考是否是能够经过lstm 和单头的attention就能够在如今的数据集上完成大型框架相似的指标。web 做者在文章里花了很大的篇幅去讨论，如何会去思考来构建sha-rnn这个模型。他类比了计算机的发展史和摩尔定律，讨论了语言模型和tokern。做者认为减小缓存，让语言模型的实现能够跑在较低的资源

>>阅读原文<<