【论文解读】隐式篇章关系分类:我们需要谈一谈评估 (ACL 2020)

论文地址:https://www.aclweb.org/anthology/2020.acl-main.480.pdf
代码链接: https://github.com/najoungkim/pdtb3

论文摘要

本文重新审视了之前在PDTB2.0版本上各个工作的一些差异,并且提出一个统一的评价标准,并且显示出了预训练模型可以取得远超目前最优模型。
另外他也对于PDTB3.0与PDTB2.0的变化进行了描述,并对于细颗粒度分类进行了一些实验,为下一步的工作打下基础。

论文拟解决的主要问题

在PDTB2.0上的相关工作中,其实验存在设置不一致,评价不一致等情况,需要统一标准。

论文贡献

  1. 指出了PDTB2.0上实验设置的不一致,并提出一个统一的标准能进行评估。
  2. 使用预训练模型在PDTB2.0和PDTB3.0上取得了最优性能,并且比较了两个语料库的差异。
  3. 讨论了下一步可以做的事情。

论文的创新点

预处理和评估上的不同

  1. 标签集合选择不同,一般的选择L1的4大类,以及L2的11小类。

  2. 语料划分不同
    在这里插入图片描述

  3. 多标注的标签处理,有的工作只选取了第一个关系标签,有的工作则重采样了,然后在预测时,候选标签中对一个标签就算对了。

  4. 随机初始化不同,将采用运行5次实验取平均值的方法。

统一标准

  1. 交叉验证
    划分上,使用滑动窗口在语料上进行12倍交叉验证,基于Dev:0-1,test:23-24,train:2-22,即每2个一组。

2.类别集合
在PDTB2.0上遵循原来的L1(4类)和L2(11类),在PDTB3.0上遵循大于100样例数的14类L2。在对付多标签时,使用所有的关系可能进行采样。

论文的实验

基准系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

几点发现

  1. PDTB3.0的额外标注确实会更有效一些。
    在这里插入图片描述

  2. 更细致的标注可能有用,但是样本不平衡。(New directional labels are potentially useful
    but distributionally skewed)
    在这里插入图片描述
    在每一个大类别中,不同的小类的样本分布不同,除了因果(前两行)以外。数量少的类别性能又会有下降。

  3. 文章内的分布也是有用的,甚至是对于浅层篇章分析来讲。(Within-document label distribution is informative, even for shallow discourse parsing)
    文章内的关系也是有相关性的,例如并列类通常是相邻的。原因和结果也是相邻的。

  4. 预训练模型很厉害,但是过于依赖词汇线索。(Vanilla pretrained encoders are strong, but
    are overreliant on lexical cues)
    预训练模型取得了最优值,但是对于一些词汇线索非常敏感,比如如果第二个篇章单元以to开始,则有95.8%的样例会被认为是目的。而如果有’-'符号在Span开头的话,则会降低9%的性能。

  5. 使用两个单模型建模后,选择存在于候选关系中正确的关系。这样性能会比真实性能要高。

论文的结论

该文强调了之前在PDTB中的工作存在不一致性,并且提出了一种改进方法。在PDTB2.0和PDTB3.0中使用了预训练模型取得了最优值。并且它还讨论了未来的几个方向,可以改进篇章关系识别的性能。