如何为NLP模型出一份合格的“考卷”?

导语 | 在进行 NLP 模型评测时,我们通常会使用一些准确性指标去评价模型,例如 F1, MAP, ACC 等。虽然这些指标可以较为公正的评判模型的总体能力,但在对模型进行监控和优化时,有时需要知道更多的细化指标。本文以语义相似度模型为例,浅谈 NLP 可解释评测,希望与大家一同交流。文章作者:许元博、周磊,腾讯CSIG质量部评测研究员。 一、背景 如果一项 NLP 任务是考试,NLP 模型是考
相关文章
相关标签/搜索