ALBERT概述

1.Introduction 通常来说,模型深度与模型效果成正比,但是模型越深也会带来动则数亿甚至数十亿的参数量,这就对计算内存有了一定的要求。而在分布式训练中,通信开销与参数也成正比,所以其对训练速度也产生了显著的影响。 目前已有的解决方案要么是并行化,要么是内存管理,但是都没有解决通信开销,即降低模型本身的参数。 在本文,作者设计一种轻量级的 Bert,并取名为 ALBERT(A Lite B
相关文章
相关标签/搜索