RecAdam optimizer 阅读笔记

Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting 摘要 在优化器角度,全任务提升BERT fine-tune的效果 做法 提出 模拟预训练,可以fine-tune时 无数据预训练 提出 目标Shifting,可以在 模拟预训练 同时训练fine-tune目标 大概思想 loss使之和
相关文章
相关标签/搜索