[论文阅读笔记 --- 12] K-ADAPTER: Infusing Knowledge into Pre-Trained Models with Adapters

Motivation         之前的预训练模型大多是在Transformer模型输出时,加入Multi-Task,通过大量语料无监督预训练,提取到文本中的某种"知识"。如Bert中的Mask Token Prediction 和 Next Sentence Prediction任务。但上述方法有一个明显的缺点,即在每次需要添加某种新的"知识"时,又需要重新预训练整个模型,这可能会导致之前"
相关文章
相关标签/搜索