Beyond Accuracy:Behavioral Testing of NLP Models with Checklist 论文阅读

本文主要介绍以及翻译一篇ACL2020 Best Paper Beyond Accuracy:Behavioral Testing of NLP Models with Checklist Abstract 尽管传统评估模型好坏的方法是在测试集上观察accuracy指标,然而这个指标常常高估了NLP模型的真实表现,而另外一些评估模型的方法要么关注单个任务,要么关注一些特殊的行为。受软件测试的启发,
相关文章
相关标签/搜索