命名实体识别竞赛中的经验过拟合

实体竞赛最重要的是分数,而分数则对应着数据打标者当时对数据进行标注的心态。所以,有时候数据预处理的方法并不是理论上完美,实际就无敌的。因为打标者的心态不可知。 对于过长的文本,打标者的心态很可能是厌恶,那么在进行实体识别这种繁琐的人工标注过程中,他们可能只会看前半部分,把一些标签捞出来,而当前这条数据的后面的几个实体,因为在文本的最后面,有可能就草草标注了事。这样就导致很多的错误实体存在于长文本的
相关文章
相关标签/搜索