R4C: A Benchmark for Evaluating RC Systems to Get the Right Answer for the Right Reason

Motivation 文章的目的是希望评估一个RC系统的内部推理,即用一种更细粒度方式体现模型确实在推理。(相比较一些datasets通过预测supporting facts来体现模型推理能力) 对于之前的一些datasets,比如经常以who开头的提问,模型学习之后往往会从一些人名中选择答案。这种启发式的规则容易带来一些bias,而模型是否真正理解了原文,我们无从得知。 另一个问题,作者提到结合
相关文章
相关标签/搜索