ReasoNet: Learning to Stop Reading in Machine Comprehension读书笔记

multi-hop reasoning阅读理解,通过强化学习决定hop步数。 训练技巧:     一般的baseline方法采用的是全局baseline,但是不同输入的hop步数不同,采用全局baseline没有区分。本文采用Constrastive Reward,对每个输入单独计算baseline,提高训练速度。
相关文章
相关标签/搜索