技术编辑:王治治丨发自 HOME
SegmentFault 思否报道丨公众号:SegmentFaultsegmentfault
近日,华为诺亚方舟实验室发布了一篇论文《DynaBERT: Dynamic BERT with Adaptive Width and Depth》。在该论文中,实验室的研究者提出了一种新型动态 BERT 模型 —— DynaBERT。网络
据论文做者介绍,像 BERT 和 RoBERTa 这样的预训练语言模型虽然在许多天然语言处理任务中功能强大,但计算和内存都很昂贵。为了缓解这个问题,一种方法是在部署前对它们进行特定任务的压缩。性能
然而,目前关于 BERT 压缩的工做一般是将大的 BERT 模型压缩成一个固定的小尺寸,并不能彻底知足不一样边缘设备不一样硬件性能的要求。而 DynaBERT 则能够在自适应的宽度和深度下运行。spa
DynaBERT 的训练过程包括首先训练一个宽度自适应的 BERT,而后经过将全尺寸模型中的知识提炼成小的子网络,容许宽度和深度自适应。网络重布线也被用来保留更多的子网络共享的更重要的注意力头和神经元。在各类效率约束下的综合实验证实,华为诺亚方舟实验室提出的 RoBERTa 在最大尺寸时具备与 BERT 至关的性能,而在较小的宽度和深度下,其性能始终优于现有的 BERT 压缩方法。blog