喜欢咱们,点击上方AINLPer,关注一下,极品干货即刻送达!微信
自我隔离的第六天,今天阳光特别好,可是不能出门,不过托别人的福,今天整了个汉堡(很久没有吃肉了),美滋滋~~
网络
该篇文章是今年AAAI2020顶会上的一篇文章,其主要研究背景是文本简化,文本如何简化才能获得比较好的结果,是什么因素在影响着文本简化效果呢,针对这些问题,论文做者从各个方面进行了分析,例如文档的长度、标题、带有关联词的句子等。本篇文章对研究文本简化有些指导意义,在工程上面的可取的应该是RST。less
TILE: Discourse Level Factors for Sentence Deletionin Text Simplification.
Paper:
arxiv.org/abs/1911.1038
文章摘要
文本简化须要对相关的句子予以删除,在此背景下,文档简化需求中广泛存在但仍处于研究阶段。
针对此问题,本文使用一个新的人工标注的句子对齐语料库来检查与句子删除相关的各类文档以及话语因素。在此过程当中发现专业编辑人员使用不一样的策略来知足中小学的可读性标准。为了预测某个句子在简化过程当中是否会被删除,咱们利用自动对齐的数据来训练一个分类模型。根据咱们的手动注释数据进行评估,咱们的最佳模型在小学和中学阶段的F1得分分别达到65.2和59.7。研究发现,话语水平因素有助于预测
简化句子的难度。
文章背景介绍
文档简化的目的是为了让更多的观众了解文本内容中真正意图,在其简化过程当中其实涉及多种操做,主要包括:词法、句法转换、摘要以及难读内容的删除和解释。最近这几年关于文档简化的研究也在呈爆发式增加,可是大部分的研究模式主要仍是集中在句子级别上,即如何可以让句子更加简化。然而却忽略了文档级别上简化,由于这样能够删除句子,这样可让文档更加简化。
本文的工做旨在促进更好地理解文档级简化中的句子删除。
由于句子的删除除了句子中的内容外,还部分地由上下文,话语级信息驱动。
数据准备及思路
使用936个新闻文章的Newsela文本简化语料库。每一个文章集由原始文章的4或5个简化版本组成,范围从3至12级(对应于8至18岁)。咱们将文章分为三个阅读级别:原始(1-2年级),初中(6-8年级)和小学(3-5年级)。咱们从每一个阅读级别使用一种版本的文章,并研究两种文档级别的转换:原始→中间和原始→基本。 咱们进行分析,学会预测当将文本简化为所需的阅读水平时,专业编辑人员是否会丢弃一个句子。为了得到标记数据进行分析和评估,咱们手动对齐了50个文章集的句子。生成的数据集是用于简化句子对齐的最大手动注释数据集之一。下图1显示了原始文章中的3句段落,与小学版本一致。
原始文章中不能与较低阅读水平的任何句子相匹配的句子被认为已删除。为了训练用于句子删除预测的模型,咱们依靠来自语料库其他部分的自动对齐句子的嘈杂监督。
话语等级因素分析(摘要修辞结构RST)
本文提出了一系列的分析来研究在简化过程当中可能影响句子删除的话语层次因素,包括文档特征、修辞结构和话语关系。
文档特征
文档的长度。 实验对比发现文档越长,句子被删除的比例就越高。
文档的主题。 主题的删除率各不相同。科学类文章的删除率在初中和小学阶段都明显较低。关于金钱和法律的文章的删除率明显高于其余文章。
摘要修辞结构理论(RST)
摘要修辞结构理论(RST)从基本的语篇单元(基本的独立子句)出发,描述了语篇树中篇章跨度之间的关系,RST被认为在相关的应用中是有用的。具体RST树的例子以下图所示:
其中,箭头表明核(箭头)和卫星(箭头尾)。在原始阶段,保留并重述[1],删除[2],保留第三个句子,但将其拆分为两个[3a]和[3b]做为一个句子,[3c]做为另外一个句子。在这里,咱们将重点放在每一个句子如何位于原始文档的第一棵树中,所以咱们将每一个句子视为一个话语单元(不必定是基本的话语单元)。
话语树的深度。
被删除的句子在话语树中所处的位置明显低于被保留的句子。因为显著性句子更倾向于位于语篇树的根附近,这代表显著性在决定一个句子是否应该被删除时起着必定的做用。
核。
实验发现,虽然在小学阶段,附属句每每被删除,可是差别很小。
话语相关
内部句子相关性。
观察到精化关系是数据集中最频繁的关系;简化另外一个句子的句子在简化过程当中更可能被删除(对基本水平而言具备统计学意义)。与任何关系(根)无关的重要句子在两个级别上被删除的可能性均大大下降。此外,用做现有句子解释的句子在简化过程当中被删除的可能性较小(对于中学水平而言,这一点很明显)。以下表所示。
话语连接词。
链接词的位置(句子的开头和结尾)是判断它们之间的关系是句内关系仍是句间关系的重要指标,通常编辑都不乐于把带有链接词的句子删除掉。
实验结果
咱们运行两个任务的实验,首先创建一个分类模型,以了解在简化到中级和原始级别时是否能够预测是否应删除句子。其次,咱们进行特征消融,以肯定在嘈杂的监督下实践文件和话语信号是否有帮助。
对于原文中的一个句子,咱们(i)预测它是否会在简化到初中水平时被删除,从自动对齐训练到噪声监督;(ii)初级阶段的预测也相同。咱们使用15篇手动对齐的文章做为验证集,其余35篇文章做为测试集。
实验方法:咱们使用逻辑回归(LR)和前馈神经网络(FNN)做为分类器,并尝试从多个可能互补的方面进行特征测试。
为了捕获句子级语义,咱们考虑GloVe词嵌入的平均值。稀疏特征(SF)包括句子在整篇文章以及其所在段落中的相对位置。此外,咱们还包括如下句子的可读性评分。利用咱们的语料库分析(第3节),咱们结合了文档级别的功能,包括文档中句子的总数和单词数以及文档的主题。咱们的话语功能包括当前句子的深度,核的指示符特征以及文档的支配关系RST树中的当前句子,是否存在咱们分析的四个关系之一的显式链接词以及该链接词的位置。咱们还使用句子的位置,由于文章后面出现的句子更有可能被删除。为了提升预测性能,咱们采用了一种平滑分类方法,并经过应用k个高斯径向基函数将每一个稀疏特征(二进制或数字的稀疏特征)投影到k维矢量表示中。
特征消融分析经过每次删除一个特征类别来预测句子的删除。
2
、FFNN+Gaussian层的模型运行结果比较好。
长按识别下方二维码,关注咱们吧(づ ̄3 ̄)❤~spa
