Reformer: The Efficient Transformer

作者:光彩照人 学校:北京邮电大学 研究方向:自然语言处理,精准营销,风险控制 一、背景与算法介绍    Transformer结构被广泛应用与自然语言处理中,并且在许多任务上都产生了当前最好的效果。为了达到进一步的效果,研究人员已经开始训练更大的Transformer模型。在某些报告的最大配置中,每层参数的数量超过了5亿(0.5B),而层的数量增加到了64层。Transformer模型也用于越来
相关文章
相关标签/搜索