摘要: 最好的论文是能够直接走出实验室!NLP年度最佳应用论文大集锦!
论文摘要github
尽管最近在训练高质量的句子嵌入上作出了不少的努力,可是你们仍然对它们所捕捉的内容缺少了解。基于句子分类的‘Downstream’tasks一般用于评估句子表示的质量。然而任务的复杂性使得它很难推断出句子表示中出现了什么样的信息。在本文将介绍10个probing tasks,旨在捕捉句子的简单语言特征,并用它们来研究由三种不一样编码器产生的句子嵌入,这些编码器以八种不一样的方式进行训练,揭示了编码器和训练方法的有趣特性。算法
总结网络
Facebook AI研究团队试图更好地理解句子嵌入所捕获的内容。由于任务的复杂性不容许咱们直接得到理解。所以,论文介绍了10个旨在捕捉句子简单语言特征的探究任务。经过这些探测任务得到的结果能够揭示编码器和训练方法的一些有趣特性。架构
论文的核心思想是什么?框架
1. 表面信息(句子中的单词数、单词内容);性能
2. 句法信息(词序、句子的层次结构、最高成分的顺序);学习
3. 语义信息(主句动词的时态、主语和宾语的数量、随机替换的单词)。测试
什么是关键成就?ui
1. 因为天然语言输入的冗余,Bag-of-Vectors所擅长得捕获句子级属性使人惊讶。
2. 类似性能的不一样编码器架构可致使不一样的嵌入。
3. 卷积架构的总体探测任务性能与最佳LSTM架构的性能至关。
4. BiLSTM-max在探测任务中优于BiLSTM。此外,即便没有通过任何训练,它也能实现很是好的性能。
将来的研究领域是什么?
什么是可能的商业应用?
一、更好地理解不一样预训练编码器捕获的信息将有助于研究人员构建更多具备语言意识的编码器。反过来,这将改善将会被应用在NLP系统中。
你在哪里能够获得实现代码?
一、GitHub上提供了本研究论文中描述的探测任务。
论文摘要
人类能够由于一些描述从而推断出下面要发生什么,例如“她打开汽车的引擎盖”,“而后,她检查了发动机”。在本文中,咱们介绍并整理了基础常识推理。咱们提出SWAG,一个新的数据集,包含113k多项选择问题,涉及丰富的基础推理。为了解决许多现有数据集中发现的注释工件和人类偏见的反复出现的挑战,咱们提出了一种新颖的过程,它经过迭代训练一组风格分类器构建一个去偏见的数据集,并使用它们来过滤数据。为了解释对抗性过滤,咱们使用最早进的语言模型来大量过滤一组不一样的潜在反事实。实证结果代表,虽然人类能够高精度地解决由此产生的推理问题(88%),但各类竞争模型仍在努力完成咱们的任务。
总结
当你读到“他将生鸡蛋面糊倒入锅中时,他…”你可能会这样选择“提起锅并移动它来搅拌。”咱们能够发现,答案并不明显,这须要常识推理。SWAG是支持研究天然语言推理(NLI)与常识推理大规模数据集。它是使用一种新颖的方法——对抗性过滤建立的,它能够以最经济有效的方式构建将来的大规模数据集。
论文的核心思想是什么?
一、上下文的句子来自于视频字幕。
二、正确的答案是实际视频中的下一个字幕。
三、使用对抗过滤(AF)生成错误的答案。
一、大量生成错误答案,而后选择哪些看起来像真正答案的回答。
二、过滤模型肯定哪些回答彷佛是机器生成的。这些回答被删除并替换为模型认为是人为编写的新回答。
什么关键成就?
一、句子的多样性不受人类创造力的限制;
二、数据集建立者能够在数据集构建期间任意提升难度;
三、人类不会写回答但只会验证它们,这样更经济;
AI社区的想法是什么?
将来的研究领域是什么?
什么是可能的商业应用?
你在哪里能够得到实现代码?
一、SWAG数据集可在GitHub上得到。
论文摘要
本文推出了一种新的基于深度学习框架的词向量表征模型,这种模型不只可以表征词汇的语法和语义层面的特征,也可以随着上下文语境的变换而改变。简单来讲,本文的模型其实本质上就是基于大规模语料训练后的双向语言模型内部隐状态特征的组合。实验证实,新的词向量模型可以很轻松的与NLP的现有主流模型相结合,而且在六大NLP任务的结果上有着巨头的提高。同时,做者也发现对模型的预训练是十分关键的,可以让下游模型去融合不一样类型的半监督训练出的特征。
总结
艾伦人工智能研究所的团队引入了一种新型的深层语境化词汇表示:语言模型嵌入(ELMo)。在ELMO加强模型中,每一个单词都是根据使用它的整个上下文进行矢量化的。将ELMo添加到现有NLP系统能够实现:
1:相对偏差减小范围从6-20%;
2:显著下降训练模型所需的时期数量;
3:显著减小达到基线性能所需的训练数据量。
论文的核心思想是什么?
取得了什么关键成就?
AI社区对其的评价?
将来的研究领域是什么?
一、经过将ELMos与不依赖于上下文的词嵌入链接起来,将此方法合并到特定任务中。
可能的商业应用的范围是什么?
ELMo显著提升了现有NLP系统的性能,从而加强了:
1. 聊天机器人将更好地理解人类和回答问题;
2. 对客户的正面和负面评论进行分类;
3. 查找相关信息和文件等;
你在哪里能够获得实现代码?
艾伦研究所提供英语和葡萄牙语预训练的ELMo模型,你还可使用TensorFlow代码从新训练模型。
论文摘要
在本文中,咱们建议扩展最近引入的模型:不可知元学习算法(MAML),用于低资源神经机器翻译(NMT)。咱们将低资源翻译构建为元学习问题,而且咱们学习基于多语言高资源语言任务来适应低资源语言。咱们使用通用词汇表示来克服不一样语言的输入输出不匹配的问题。咱们使用十八种欧洲语言(Bg,Cs,Da,De,El,Es,Et,Fr,Hu,It,Lt,Nl,Pl,Pt,Sk,Sl,Sv和Ru)评估所提出的元学习策略,源任务和五种不一样的语言(Ro,Lv,Fi,Tr和Ko)做为目标任务。咱们证明了,所提出的方法明显优于基于多语言迁移学习的方法,这可以使咱们只用一小部分训练样例来训练有竞争力的NMT系统。例如,经过经过16000个翻译单词(约600个并行句子),用所提出的方法在罗马尼亚语-英语WMT'16上实现高达22.04 BLEU。
总结
香港大学和纽约大学的研究人员使用模型无关的元学习算法(MAML)来解决低资源机器翻译的问题。特别是,他们建议使用许多高资源语言对来查找模型的初始参数,而后,这种初始化容许仅使用几个学习步骤在低资源语言对上训练新的语言模型。
论文的核心思想是什么?
关键成就是什么?
一、可以在高资源和极低资源语言对之间共享信息;
二、仅使用几千个句子来微调低资源语言对上的新翻译模型;
一、元学习始终比多语言迁移学习好;
二、元学习验证集语言对的选择会影响结果模型的性能。例如,当使用罗马尼亚语-英语进行验证时,芬兰语-英语受益更多,而土耳其语-英语则更喜欢拉脱维亚语-英语的验证。
AI社区对它的见解?
将来的研究领域是什么?
什么是可能的商业应用?
你在哪里能够获得实现代码?
一、MetaNMT的PyTorch实施能够在Github上找到。
本文为云栖社区原创内容,未经容许不得转载。