把BERT的推断速度提升17倍

时间 2021-01-04

原文原文链接

作者：EMMA NING 编译：ronghuaiyang 导读微软刚刚开源了Transformer的突破性优化，大大提升了CPU和GPU上的推理速度。用于自然语言处理的最流行的深度学习模型之一是BERT。由于需要大量的计算，在大规模推断上BERT计算量非常大，甚至在严格的延迟约束下都不可能。最近，我们分享了“Bing has improved BERT inference on GPU for