AAAI 2020 阅读论文笔记

Towards Making the Most of BERT in Neural Machine Translation 目的:如何更好的使用预训练模型?—>微调效果并不好;上一篇笔记中的方法将BERT embeddings作为encoder的初始化或者中间的嵌入比较适用于低资源的情况,在高资源情况下由于训练中的太多更新,会导致遗忘。 方法: (1)Asymptotic Distilation:
相关文章
相关标签/搜索