R4C: A Benchmark for Evaluating RC Systems to Get the Right Answer for the Right Reason

时间 2020-12-30

原文原文链接

Motivation 文章的目的是希望评估一个RC系统的内部推理，即用一种更细粒度方式体现模型确实在推理。（相比较一些datasets通过预测supporting facts来体现模型推理能力）对于之前的一些datasets，比如经常以who开头的提问，模型学习之后往往会从一些人名中选择答案。这种启发式的规则容易带来一些bias，而模型是否真正理解了原文，我们无从得知。另一个问题，作者提到结合

>>阅读原文<<