来源:专知html
本文多图,建议阅读5分钟测试
本文介绍咱们在人工智能(特别是在天然语言处理)中进行基准测试的方式时所作的工做。人工智能
当前人工智能中的基准测试范式存在许多问题:基准很快饱和,容易过分拟合,包含可利用的注释器工件,评估指标不清晰或不完善,而且不能衡量咱们真正关心的东西。我将谈谈我在尝试从新思考咱们在人工智能(特别是在天然语言处理)中进行基准测试的方式时所作的工做,包括对抗性的NLI和模因数据集,以及最近推出的Dynabench平台。htm
https://nlp.stanford.edu/seminar/details/douwekiela.shtmlclass