可应用于实际的14个NLP突破性研究成果（二）

时间 2019-12-05

标签应用于实际 nlp 突破性研究成果繁體版

原文原文链接

摘要： 最好的论文是能够直接走出实验室！NLP年度最佳应用论文大集锦！

4.What you can cram into a single vector: Probing sentence embeddings for linguistic properties，做者：ALEXIS CONNEAU，KRUSZEWSKI，GUILLAUME LAMPLE，LOÏCBARRAULT，MARCO BARONI

论文摘要github

尽管最近在训练高质量的句子嵌入上作出了不少的努力，可是你们仍然对它们所捕捉的内容缺少了解。基于句子分类的‘Downstream’tasks一般用于评估句子表示的质量。然而任务的复杂性使得它很难推断出句子表示中出现了什么样的信息。在本文将介绍10个probing tasks，旨在捕捉句子的简单语言特征，并用它们来研究由三种不一样编码器产生的句子嵌入，这些编码器以八种不一样的方式进行训练，揭示了编码器和训练方法的有趣特性。算法

总结网络

Facebook AI研究团队试图更好地理解句子嵌入所捕获的内容。由于任务的复杂性不容许咱们直接得到理解。所以，论文介绍了10个旨在捕捉句子简单语言特征的探究任务。经过这些探测任务得到的结果能够揭示编码器和训练方法的一些有趣特性。架构

论文的核心思想是什么？框架

咱们有许多句子嵌入方法，表现出很是好的表现，但咱们仍然缺少对它们如何捕获的内容的理解。
研究人员经过引入10个探测任务来研究由3种不一样编码器（BiLSTM-last，BiLSTM-max和Gated ConvNet）生成的嵌入来解决这个问题，这些编码器以8种不一样的方式进行训练。
探测任务测试句子嵌入保留的程度：

1. 表面信息（句子中的单词数、单词内容）;性能

2. 句法信息（词序、句子的层次结构、最高成分的顺序）;学习

3. 语义信息（主句动词的时态、主语和宾语的数量、随机替换的单词）。测试

什么是关键成就？ui

对现代句子编码器进行普遍的评估。
揭示编码器和训练方法的一些有趣属性：

1. 因为天然语言输入的冗余，Bag-of-Vectors所擅长得捕获句子级属性使人惊讶。

2. 类似性能的不一样编码器架构可致使不一样的嵌入。

3. 卷积架构的总体探测任务性能与最佳LSTM架构的性能至关。

4. BiLSTM-max在探测任务中优于BiLSTM。此外，即便没有通过任何训练，它也能实现很是好的性能。

将来的研究领域是什么？

将探测任务扩展到其余语言和语言域。
调查多任务训练如何影响探测任务的性能。
经过引入的探测任务，找到更多具备语言意识的通用编码器。

什么是可能的商业应用？

一、更好地理解不一样预训练编码器捕获的信息将有助于研究人员构建更多具备语言意识的编码器。反过来，这将改善将会被应用在NLP系统中。

你在哪里能够获得实现代码？

一、GitHub上提供了本研究论文中描述的探测任务。

5.SWAG：一个用于给定信息的常识推理的大规模对抗性数据集，做者：ROWAN ZELLERS，YONATAN BISK，ROY SCHWARTZ，YEJIN CHOI

论文摘要

人类能够由于一些描述从而推断出下面要发生什么，例如“她打开汽车的引擎盖”，“而后，她检查了发动机”。在本文中，咱们介绍并整理了基础常识推理。咱们提出SWAG，一个新的数据集，包含113k多项选择问题，涉及丰富的基础推理。为了解决许多现有数据集中发现的注释工件和人类偏见的反复出现的挑战，咱们提出了一种新颖的过程，它经过迭代训练一组风格分类器构建一个去偏见的数据集，并使用它们来过滤数据。为了解释对抗性过滤，咱们使用最早进的语言模型来大量过滤一组不一样的潜在反事实。实证结果代表，虽然人类能够高精度地解决由此产生的推理问题（88％），但各类竞争模型仍在努力完成咱们的任务。

总结

当你读到“他将生鸡蛋面糊倒入锅中时，他…”你可能会这样选择“提起锅并移动它来搅拌。”咱们能够发现，答案并不明显，这须要常识推理。SWAG是支持研究天然语言推理（NLI）与常识推理大规模数据集。它是使用一种新颖的方法——对抗性过滤建立的，它能够以最经济有效的方式构建将来的大规模数据集。

论文的核心思想是什么？

SWAG包含113K多项选择题，大可能是视频字幕：

一、上下文的句子来自于视频字幕。

二、正确的答案是实际视频中的下一个字幕。

三、使用对抗过滤（AF）生成错误的答案。

Adversarial Filtering背后的想法：

一、大量生成错误答案，而后选择哪些看起来像真正答案的回答。

二、过滤模型肯定哪些回答彷佛是机器生成的。这些回答被删除并替换为模型认为是人为编写的新回答。

最后，整个数据集由众包工做者验证。

什么关键成就？

提出一个新的具备挑战性的大规模数据集来测试NLI系统。
引入Adversarial Filtering，这种方法可用于经济高效地构建大型数据集，具备如下几个优势：

一、句子的多样性不受人类创造力的限制；

二、数据集建立者能够在数据集构建期间任意提升难度；

三、人类不会写回答但只会验证它们，这样更经济；

AI社区的想法是什么？

该论文在2018年一个天然语言处理领域领先的会议上被发表。
即便在此重要的NLP会议上发布以前，该数据集也是经过Google的新BERT模型解决的，该模型的准确度达到了86.2％而且很是接近人类的准确度（88％）。

将来的研究领域是什么？

使用更好的Adversarial Filtering和语言模型建立更具对抗性的SWAG版本。

什么是可能的商业应用？

该数据集能够帮助构建具备常识推理的NLI系统，从而改善Q＆A系统和会话AI的开发。

你在哪里能够得到实现代码？

一、SWAG数据集可在GitHub上得到。

6.（ELMO词向量模型）做者：MATTHEW E. PETERS，MARK NEUMANN，MOHIT IYYER，MATT GARDNER，CHRISTOPHER CLARK，KENTON LEE，LUKE ZETTLEMOYER

论文摘要

本文推出了一种新的基于深度学习框架的词向量表征模型，这种模型不只可以表征词汇的语法和语义层面的特征，也可以随着上下文语境的变换而改变。简单来讲，本文的模型其实本质上就是基于大规模语料训练后的双向语言模型内部隐状态特征的组合。实验证实，新的词向量模型可以很轻松的与NLP的现有主流模型相结合，而且在六大NLP任务的结果上有着巨头的提高。同时，做者也发现对模型的预训练是十分关键的，可以让下游模型去融合不一样类型的半监督训练出的特征。

总结

艾伦人工智能研究所的团队引入了一种新型的深层语境化词汇表示：语言模型嵌入（ELMo）。在ELMO加强模型中，每一个单词都是根据使用它的整个上下文进行矢量化的。将ELMo添加到现有NLP系统能够实现：

1：相对偏差减小范围从6-20％；

2：显著下降训练模型所需的时期数量；

3：显著减小达到基线性能所需的训练数据量。

论文的核心思想是什么？

生成词嵌入做为深度双向语言模型（biLM）的内部状态的加权和，在大文本语料库上预训练。
包括来自biLM的全部层的表示，由于不一样的层表示不一样类型的信息。
基于角色的ELMo表示，以便网络可使用形态线索来“理解”在训练中看不到的词汇外令牌。

取得了什么关键成就？

将ELMo添加到模型中会创造新的记录，在诸如问答、文本蕴涵、语义角色标记、共指解析、命名实体提取、情绪分析等NLP任务中相对偏差下降6-20％。
使用ELMo加强模型可显著着下降达到最优性能所需的训练次数。所以，具备ELMo的语义角色标签（SRL）模型仅须要10个时期就能够超过在486个训练时期以后达到的基线最大值。
将ELMo引入模型还能够显著减小实现相同性能水平所需的训练数据量。例如，对于SRL任务，ELMo加强模型仅须要训练集的1％便可得到与具备10％训练数据的基线模型相同的性能。

AI社区对其的评价？

该论文被NAACL评为优秀论文，NAACL是世界上最具影响力的NLP会议之一。
本文介绍的ELMo方法被认为是2018年最大的突破之一，也是NLP将来几年的主要趋势。

将来的研究领域是什么？

一、经过将ELMos与不依赖于上下文的词嵌入链接起来，将此方法合并到特定任务中。

可能的商业应用的范围是什么？

ELMo显著提升了现有NLP系统的性能，从而加强了：

1. 聊天机器人将更好地理解人类和回答问题;

2. 对客户的正面和负面评论进行分类;

3. 查找相关信息和文件等；

你在哪里能够获得实现代码？

艾伦研究所提供英语和葡萄牙语预训练的ELMo模型，你还可使用TensorFlow代码从新训练模型。

7.用于低资源神经机器翻译的元学习，做者：JIATAO GU，WANG WANG，YUN YUN，KYUNGHYUN CHO，VICTOR OK LI

论文摘要

在本文中，咱们建议扩展最近引入的模型：不可知元学习算法（MAML），用于低资源神经机器翻译（NMT）。咱们将低资源翻译构建为元学习问题，而且咱们学习基于多语言高资源语言任务来适应低资源语言。咱们使用通用词汇表示来克服不一样语言的输入输出不匹配的问题。咱们使用十八种欧洲语言（Bg，Cs，Da，De，El，Es，Et，Fr，Hu，It，Lt，Nl，Pl，Pt，Sk，Sl，Sv和Ru）评估所提出的元学习策略，源任务和五种不一样的语言（Ro，Lv，Fi，Tr和Ko）做为目标任务。咱们证明了，所提出的方法明显优于基于多语言迁移学习的方法，这可以使咱们只用一小部分训练样例来训练有竞争力的NMT系统。例如，经过经过16000个翻译单词（约600个并行句子），用所提出的方法在罗马尼亚语-英语WMT'16上实现高达22.04 BLEU。

总结

香港大学和纽约大学的研究人员使用模型无关的元学习算法（MAML）来解决低资源机器翻译的问题。特别是，他们建议使用许多高资源语言对来查找模型的初始参数，而后，这种初始化容许仅使用几个学习步骤在低资源语言对上训练新的语言模型。

论文的核心思想是什么？

介绍了一种新的元学习方法MetaNMT，该方法假设使用许多高资源语言对来找到良好的初始参数，而后从找到的初始参数开始在低资源语言上训练新的翻译模型。
只有在全部源和目标任务之间共享输入和输出空间时，元学习才能应用于低资源机器翻译。然而，因为不一样的语言具备不一样的词汇。为了解决这个问题，研究人员使用键值存储网络动态地构建了针对每种语言的词汇表。

关键成就是什么？

为极低资源语言找到了神经机器翻译的新方法，其中：

一、可以在高资源和极低资源语言对之间共享信息;

二、仅使用几千个句子来微调低资源语言对上的新翻译模型;

实验证实：

一、元学习始终比多语言迁移学习好；

二、元学习验证集语言对的选择会影响结果模型的性能。例如，当使用罗马尼亚语-英语进行验证时，芬兰语-英语受益更多，而土耳其语-英语则更喜欢拉脱维亚语-英语的验证。

AI社区对它的见解？

该论文在天然语言处理领域领先的会议EMNLP上被发表。
所提出的方法得到了Facebook的低资源神经机器翻译奖。

将来的研究领域是什么？

半监督神经机器翻译的元学习或单语语料库的学习。
当学习多个元模型且新语言能够自由选择适应的模型时，进行多模态元学习。

什么是可能的商业应用？

MetaNMT可用于改善可用并行语料库很是小的语言对的机器翻译结果。

你在哪里能够获得实现代码？

一、MetaNMT的PyTorch实施能够在Github上找到。

本文做者：【方向】

阅读原文

本文为云栖社区原创内容，未经容许不得转载。