论文阅读:Reducing Transformer Depth On Demand With Structured Dropout

Introduction 这篇paper是做Transformer压缩的,但其实bert的核心也就是transformer,这篇paper的实验里也做了bert的压缩。作者的主要工作是提出了LayerDrop的方法,即一种结构化的dropout的方法来对transformer模型进行训练,从而在不需要fine-tune的情况下选择一个大网络的子网络。 这篇paper方法的核心是通过Dropout来
相关文章
相关标签/搜索