把BERT的推断速度提升17倍

作者:EMMA NING 编译:ronghuaiyang 导读 微软刚刚开源了Transformer的突破性优化,大大提升了CPU和GPU上的推理速度。 用于自然语言处理的最流行的深度学习模型之一是BERT。由于需要大量的计算,在大规模推断上BERT计算量非常大,甚至在严格的延迟约束下都不可能。最近,我们分享了“Bing has improved BERT inference on GPU for
相关文章
相关标签/搜索