ReasoNet: Learning to Stop Reading in Machine Comprehension读书笔记

时间 2021-01-02

原文原文链接

multi-hop reasoning阅读理解，通过强化学习决定hop步数。训练技巧：一般的baseline方法采用的是全局baseline，但是不同输入的hop步数不同，采用全局baseline没有区分。本文采用Constrastive Reward，对每个输入单独计算baseline，提高训练速度。