摘要:最好的论文是能够直接走出实验室!NLP年度最佳应用论文大集锦!
可应用于实际的14个NLP突破性研究成果(三)github
论文摘要算法
对于大多数深度学习实践者来讲,序列建模与循环网络是同义词。然而,最近的研究结果代表,卷积架构在语音合成和机器翻译等任务上的表现优于循环网络。给定一个新的序列建模任务或数据集,应该使用哪一种架构?咱们对序列建模的通常卷积和循环架构进行了系统的评价。咱们在普遍的标准任务中评估这些模型。咱们的结果代表,一个简单的卷积架构在不一样的任务和数据集上的表现优于LSTM等典型的循环网络。咱们的结论是,须要从新考虑序列建模和循环网络之间的共同关联,卷积网络应该被视为序列建模任务的一个天然起点咱们提供了相关代码:http://github.com/locuslab/TCN。网络
总结架构
本文的做者质疑了一个常见假设,即循环架构应该是序列建模任务的默认起点。他们的结果代表,时间卷积网络(TCN)在多个序列建模任务中明显优于长短时间记忆网络(LSTMs)和门控循环单元网络等典型的循环架构。ide
论文的核心思想是什么?性能
一、时间卷积网络(TCN)是基于最近提出的最佳实践(如扩张卷积和残差链接)设计的,它在一系列复杂的序列建模任务中表现得明显优于通用的循环架构。学习
二、TCN表现出比循环架构更长的记忆,所以更适合须要较长的历史记录的任务。测试
关键成就是什么?
AI社区的对其评价?
在使用RNN以前,必定要先从CNN开始。
将来的研究领域是什么?
为了提升TCN在不一样序列建模任务中的性能,须要进一步精化架构和算法。
可能应用的商业领域?
§机器翻译;
§语音识别;
§音乐和语音生成。
你在哪里能够获得代码?
一、如论文摘要所述,研究人员经过GitHub存储库提供了官方代码。
二、你还能够查看PhilippeRémy提供的Keras实施的TCN。
论文摘要
迁移学习在计算机视觉方面取得了不少成功,可是一样的方法应用在NLP领域却行不通。因此咱们提出了通用语言模型微调(ULMFiT),这是一种有效的转移学习方法,能够应用于NLP中的任何任务。该方法在6个文本分类任务上的性能明显优于现有的文本分类方法,在大部分的数据集上测试使得错误率下降了18-24%。此外,仅有100个标记样本训练的结果也至关不错。咱们已经开源咱们的预训练模型和代码。
总结
Howard和Ruder建议使用预先训练的模型来解决各类NLP问题。使用这种方法的好处是你无需从头开始训练模型,只需对原始模型进行微调。通用语言模型微调(ULMFiT)的方法优于最早进的结果,它将偏差下降了18-24%。更重要的是,ULMFiT能够只使用100个标记示例,就能与10K标记示例中从头开始训练的模型的性能相匹配。
论文的核心思想是什么?
§不一样的层应该进行不一样程度地微调,由于它们捕获不一样类型的信息。
§若是学习速率首先线性增长而后线性衰减,则将模型的参数调整为任务特定的特征将更有效。
§微调全部层可能会致使灾难性的遗忘;所以,从最后一层开始逐渐微调模型可能会更好。
关键成就是什么?
AI社区对其的见解是什么?
将来的研究领域的方向是什么?
可能应用的商业领域?
§识别垃圾邮件、机器人、攻击性评论;
§按特定功能对文章进行分组;
§对正面和负面评论进行分类;
§查找相关文件等
你在哪里能够获得实现代码?
Fast.ai提供ULMFiT的官方实施,用于文本分类,并做为fast.ai库的一部分。
论文摘要
天然语言理解包括各类各样的任务,例如文本蕴涵、问答、语义类似性评估和文档分类。虽然大量未标记的文本语料库很丰富,但用于学习这些特定任务的标记数据不多。咱们证实,经过对多种未标记文本语料库中的语言模型进行生成预训练,而后对每项特定任务进行辨别性微调,能够实现这些任务的巨大收益。与之前的方法相比,咱们在微调期间利用任务感知输入转换来实现有效传输,同时对模型架构进行最少的更改。咱们证实了咱们的方法在普遍的天然语言理解基准上的有效性。例如,咱们在常识推理(Stories Cloze Test)上得到8.9%的性能改善,在问答(RACE)上达到5.7%,在文本蕴涵(MultiNLI)上达到1.5%。
总结
OpenAI团队建议经过在多种未标记文本语料库中预先训练语言模型,而后使用标记数据集对每一个特定任务的模型进行微调,从而能够显著改善了语言理解。他们还代表,使用Transformer模型而不是传统的递归神经网络能够显著提升模型的性能,这种方法在所研究的12项任务中有9项的表现优于以前的最佳结果。
论文的核心思想是什么?
§预训练模型是在连续的文本序列上训练的,可是问题回答或文本蕴涵等任务具备结构化输入。
§解决方案是将结构化输入转换为预先训练的模型能够处理的有序序列。
取得了什么关键成就?
AI社区对其见解是什么?
将来的研究领域是什么?
进一步研究天然语言理解和其余领域的无监督学习,以便更好地理解无监督学习的时间和方式。
可能应用的商业领域?
OpenAI团队的方法经过无监督学习加强了天然语言理解,所以能够帮助标记数据集稀疏或不可靠的NLP应用。
在哪里能够获得实现代码?
Open AI团队在GitHub上的公开了代码和模型。
论文摘要
最近研究显示从预训练的双向语言模型(biLM)导出的上下文词表示为普遍的NLP任务提供了对现有技术的改进。然而,关于这些模型如何以及为什么如此有效的问题,仍然存在许多问题。在本文中,咱们提出了一个详细的实证研究,探讨神经结构的选择(例如LSTM,CNN)如何影响最终任务的准确性和所学习的表征的定性属性。咱们展现了如何在速度和准确性之间的权衡,但全部体系结构都学习了高质量的上下文表示,这些表示优于四个具备挑战性的NLP任务的字嵌入。此外,全部架构都学习随网络深度而变化的表示,从基于词嵌入层的专有形态学到基于较低上下文层的局部语法到较高范围的语义。总之,这些结果代表,无人监督的biLM正在学习更多关于语言结构的知识。
总结
今年早些时候艾伦人工智能研究所的团队介绍了ELMo嵌入,旨在更好地理解预训练的语言模型表示。为此,他们精心设计了无监督和监督任务上普遍研究学习的单词和跨度表示。研究结果代表,独立于体系结构的学习表示随网络深度而变化。
论文的核心思想是什么?
§直接终端任务准确性;
§学习表示的定性属性,即语境化词表示如何编码语法和语义的概念。
什么是关键成就?
§LSTM得到最高的准确度,但也是最慢的;
§基于Transformer和CNN的模型比基于LSTM的模型快3倍,但也不太准确。
§深度biLM的词嵌入层专一于词形态,与传统的词向量造成对比,传统的词向量在该层也编码一些语义信息;
§biLM的最低上下文层只关注本地语法;
AI社区对其见解是什么?
将来的研究领域是什么?
可能应用的商业领域?
一、经过更好地理解预训练语言模型表示所捕获的信息,研究人员能够构建更复杂的模型,并加强在业务环境中应用的NLP系统的性能。
本文做者:【方向】
本文为云栖社区原创内容,未经容许不得转载。