可应用于实际的14个NLP突破性研究成果（四）

时间 2020-01-06

标签应用于实际 nlp 突破性研究成果繁體版

原文原文链接

摘要：最好的论文是能够直接走出实验室！NLP年度最佳应用论文大集锦！

可应用于实际的14个NLP突破性研究成果（一） html

可应用于实际的14个NLP突破性研究成果（二） git

可应用于实际的14个NLP突破性研究成果（三）github

11.对序列建模的通用卷积和递归网络的实证评估做者：SHAOJIE BAI，J。ZICO KOLTER，VLADLEN KOLTUN

论文摘要算法

对于大多数深度学习实践者来讲，序列建模与循环网络是同义词。然而，最近的研究结果代表，卷积架构在语音合成和机器翻译等任务上的表现优于循环网络。给定一个新的序列建模任务或数据集，应该使用哪一种架构？咱们对序列建模的通常卷积和循环架构进行了系统的评价。咱们在普遍的标准任务中评估这些模型。咱们的结果代表，一个简单的卷积架构在不一样的任务和数据集上的表现优于LSTM等典型的循环网络。咱们的结论是，须要从新考虑序列建模和循环网络之间的共同关联，卷积网络应该被视为序列建模任务的一个天然起点咱们提供了相关代码：http://github.com/locuslab/TCN。网络

总结架构

本文的做者质疑了一个常见假设，即循环架构应该是序列建模任务的默认起点。他们的结果代表，时间卷积网络（TCN）在多个序列建模任务中明显优于长短时间记忆网络（LSTMs）和门控循环单元网络等典型的循环架构。ide

论文的核心思想是什么？性能

一、时间卷积网络（TCN）是基于最近提出的最佳实践（如扩张卷积和残差链接）设计的，它在一系列复杂的序列建模任务中表现得明显优于通用的循环架构。学习

二、TCN表现出比循环架构更长的记忆，所以更适合须要较长的历史记录的任务。测试

关键成就是什么？

在序列建模任务上提供了卷积架构和循环体系结构系统的比较。
设计了卷积体系结构，它能够做为序列建模任务的方便且强大的起点。

AI社区的对其评价？

在使用RNN以前，必定要先从CNN开始。

将来的研究领域是什么？

为了提升TCN在不一样序列建模任务中的性能，须要进一步精化架构和算法。

可能应用的商业领域？

引入TCN能够提升依赖于循环架构进行序列建模的AI系统的性能。其中包括如下任务：

§机器翻译;

§语音识别;

§音乐和语音生成。

你在哪里能够获得代码？

一、如论文摘要所述，研究人员经过GitHub存储库提供了官方代码。

二、你还能够查看PhilippeRémy提供的Keras实施的TCN。

12.用于文本分类的通用语言模型微调-ULMFiT做者：JEREMY HOWARD和SEBASTIAN RUDER

论文摘要

迁移学习在计算机视觉方面取得了不少成功，可是一样的方法应用在NLP领域却行不通。因此咱们提出了通用语言模型微调（ULMFiT），这是一种有效的转移学习方法，能够应用于NLP中的任何任务。该方法在6个文本分类任务上的性能明显优于现有的文本分类方法，在大部分的数据集上测试使得错误率下降了18-24%。此外，仅有100个标记样本训练的结果也至关不错。咱们已经开源咱们的预训练模型和代码。

总结

Howard和Ruder建议使用预先训练的模型来解决各类NLP问题。使用这种方法的好处是你无需从头开始训练模型，只需对原始模型进行微调。通用语言模型微调（ULMFiT）的方法优于最早进的结果，它将偏差下降了18-24％。更重要的是，ULMFiT能够只使用100个标记示例，就能与10K标记示例中从头开始训练的模型的性能相匹配。

论文的核心思想是什么？

为了解决缺少标记数据的难题，研究人员建议将转移学习应用于NLP问题。所以，你可使用另外一个通过训练的模型来解决相似问题做为基础，而后微调原始模型以解决你的特定问题，而不是从头开始训练模型。
可是，这种微调应该考虑到几个重要的考虑因素：

§不一样的层应该进行不一样程度地微调，由于它们捕获不一样类型的信息。

§若是学习速率首先线性增长而后线性衰减，则将模型的参数调整为任务特定的特征将更有效。

§微调全部层可能会致使灾难性的遗忘;所以，从最后一层开始逐渐微调模型可能会更好。

关键成就是什么？

显著优于最早进的技术：将偏差下降18-24％；
所需的标记数据要少得多，但性能能够保障。

AI社区对其的见解是什么？

预先训练的ImageNet模型的可用性已经改变了计算机视觉领域，ULMFiT对于NLP问题可能具备相同的重要性。
此方法能够应用于任何语言的任何NLP任务。

将来的研究领域的方向是什么？

改进语言模型预训练和微调。
将这种新方法应用于新的任务和模型（例如，序列标记、天然语言生成、蕴涵或问答）。

可能应用的商业领域？

ULMFiT能够更有效地解决各类NLP问题，包括：

§识别垃圾邮件、机器人、攻击性评论;

§按特定功能对文章进行分组;

§对正面和负面评论进行分类;

§查找相关文件等

你在哪里能够获得实现代码？

Fast.ai提供ULMFiT的官方实施，用于文本分类，并做为fast.ai库的一部分。

13.用非监督学习来提高语言理解，做者：ALEC RADFORD，KARTHIK NARASIMHAN，TIM SALIMANS，ILYA SUTSKEVER

论文摘要

天然语言理解包括各类各样的任务，例如文本蕴涵、问答、语义类似性评估和文档分类。虽然大量未标记的文本语料库很丰富，但用于学习这些特定任务的标记数据不多。咱们证实，经过对多种未标记文本语料库中的语言模型进行生成预训练，而后对每项特定任务进行辨别性微调，能够实现这些任务的巨大收益。与之前的方法相比，咱们在微调期间利用任务感知输入转换来实现有效传输，同时对模型架构进行最少的更改。咱们证实了咱们的方法在普遍的天然语言理解基准上的有效性。例如，咱们在常识推理（Stories Cloze Test）上得到8.9％的性能改善，在问答（RACE）上达到5.7％，在文本蕴涵（MultiNLI）上达到1.5％。

总结

OpenAI团队建议经过在多种未标记文本语料库中预先训练语言模型，而后使用标记数据集对每一个特定任务的模型进行微调，从而能够显著改善了语言理解。他们还代表，使用Transformer模型而不是传统的递归神经网络能够显著提升模型的性能，这种方法在所研究的12项任务中有9项的表现优于以前的最佳结果。

论文的核心思想是什么？

经过在未标记数据上学习神经网络模型的初始参数，而后使用标记数据使这些参数适应特定任务，结合使用无监督预训练和监督微调。
经过使用遍历样式方法避免跨任务对模型体系结构进行大量更改：

§预训练模型是在连续的文本序列上训练的，可是问题回答或文本蕴涵等任务具备结构化输入。

§解决方案是将结构化输入转换为预先训练的模型能够处理的有序序列。

使用Transformer模型而不是LSTM，由于这些模型提供了更加结构化的内存，用于处理文本中的长期依赖关系。

取得了什么关键成就？

对于天然语言推理（NLI）的任务，经过在SciTail上得到5％的性能改进和在QNLI上得到5.8％的性能改进。
对于QA和常识推理的任务，表现优于之前的最佳结果-在Story Cloze上高达8.9％，在RACE上高达5.7％。
经过在QQP上实现4.2％的性能改善，刷新了3个语义类似性任务中的2个的最新结果。
对于分类任务，得到CoLA的45.4分，而以前的最佳结果仅为35分。

AI社区对其见解是什么？

该论文经过使用基于Transformer模型而非LSTM扩展了ULMFiT研究，并将该方法应用于更普遍的任务。
“这正是咱们但愿咱们的ULMFiT工做可以发挥做用的地方！”Jeremy Howard，fast.ai的创始人。

将来的研究领域是什么？

进一步研究天然语言理解和其余领域的无监督学习，以便更好地理解无监督学习的时间和方式。

可能应用的商业领域？

OpenAI团队的方法经过无监督学习加强了天然语言理解，所以能够帮助标记数据集稀疏或不可靠的NLP应用。

在哪里能够获得实现代码？

Open AI团队在GitHub上的公开了代码和模型。

14.语境化词向量解析：架构和表示，做者：MATTHEW E. PETERS，MARK NEUMANN，LUKE ZETTLEMOYER，WEN-TAU YIH

论文摘要

最近研究显示从预训练的双向语言模型（biLM）导出的上下文词表示为普遍的NLP任务提供了对现有技术的改进。然而，关于这些模型如何以及为什么如此有效的问题，仍然存在许多问题。在本文中，咱们提出了一个详细的实证研究，探讨神经结构的选择（例如LSTM，CNN）如何影响最终任务的准确性和所学习的表征的定性属性。咱们展现了如何在速度和准确性之间的权衡，但全部体系结构都学习了高质量的上下文表示，这些表示优于四个具备挑战性的NLP任务的字嵌入。此外，全部架构都学习随网络深度而变化的表示，从基于词嵌入层的专有形态学到基于较低上下文层的局部语法到较高范围的语义。总之，这些结果代表，无人监督的biLM正在学习更多关于语言结构的知识。

总结

今年早些时候艾伦人工智能研究所的团队介绍了ELMo嵌入，旨在更好地理解预训练的语言模型表示。为此，他们精心设计了无监督和监督任务上普遍研究学习的单词和跨度表示。研究结果代表，独立于体系结构的学习表示随网络深度而变化。

论文的核心思想是什么？

预训练的语言模型大大提升了许多NLP任务的性能，将错误率下降了10-25％。可是，仍然没有清楚地了解为何以及如何在实践中进行预训练。
为了更好地理解预训练的语言模型表示，研究人员凭经验研究神经结构的选择如何影响：

§直接终端任务准确性;

§学习表示的定性属性，即语境化词表示如何编码语法和语义的概念。

什么是关键成就？

确认在速度和准确度之间存在权衡，在评估的三种架构中-LSTM，Transformer和Gated CNN：

§LSTM得到最高的准确度，但也是最慢的；

§基于Transformer和CNN的模型比基于LSTM的模型快3倍，但也不太准确。

证实由预先训练的双向语言模型（biLM）捕获的信息随网络深度而变化：

§深度biLM的词嵌入层专一于词形态，与传统的词向量造成对比，传统的词向量在该层也编码一些语义信息;

§biLM的最低上下文层只关注本地语法;

证实了biLM激活可用于造成对语法任务有用的短语表示。

AI社区对其见解是什么？

该论文在EMNLP 2018上发表。
“对我来讲，这确实证实了预训练的语言模型确实捕获了与在ImageNet上预训练的计算机视觉模型类似的属性。”AYLIEN的研究科学家Sebastian Ruder。

将来的研究领域是什么？

使用明确的句法结构或其余语言驱动的概括偏见来加强模型。
将纯无监督的biLM训练目标与现有的注释资源以多任务或半监督方式相结合。

可能应用的商业领域？

一、经过更好地理解预训练语言模型表示所捕获的信息，研究人员能够构建更复杂的模型，并加强在业务环境中应用的NLP系统的性能。

本文做者：【方向】

阅读原文

本文为云栖社区原创内容，未经容许不得转载。