[NLG] Pretraining for Conditional Generation with Pseudo Self Attention

摘要:   这篇文章的主要idea就是如何用现在已经有的语言模型,稍微引导一下生成基于某些条件的话语。如给个情感,生成一个带情感的句子。作者在GPT2的结构上稍微修改了self-attention机制,命名为Pseudo-Self,在decoder的时候引入外部控制,并且这样做能够尽量小的影响GPT2之前的训练参数,达到的很好的效果。   模型: 作者主要对比了前面两种工作,关于这两种工作不做阐述
相关文章
相关标签/搜索