参数少一半,效果还更好,天津大学和微软提出Transformer压缩模型

  因为在天然语言处理任务中的突出表现,基于 Transformer 的预训练语言模型是 NLP 领域的研究重点。考虑到模型参数量过大,致使其训练困难,部署不方便,研究人员一直在探究压缩模型的方法。近日,天津大学联合微软亚洲研究院提出了 Transformer 的压缩方法,不只减小了近一半的参数量,模型在语言建模和神经机器翻译任务的表现也有所提高。这一研究可帮助在一些算力资源较小的环境中部署预训练
相关文章
相关标签/搜索