参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

时间 2020-02-14

标签参数少一半效果更好天津大学微软提出 transformer 压缩模型栏目 Microsoft 繁體版

原文原文链接

因为在天然语言处理任务中的突出表现，基于 Transformer 的预训练语言模型是 NLP 领域的研究重点。考虑到模型参数量过大，致使其训练困难，部署不方便，研究人员一直在探究压缩模型的方法。近日，天津大学联合微软亚洲研究院提出了 Transformer 的压缩方法，不只减小了近一半的参数量，模型在语言建模和神经机器翻译任务的表现也有所提高。这一研究可帮助在一些算力资源较小的环境中部署预训练

>>阅读原文<<