NLP中的迁移学习教程来啦！（238页PPT下载）

时间 2019-12-08

标签 nlp 迁移学习教程 ppt 下载栏目 Microsoft Office 繁體版

原文原文链接

文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。算法

来源 | 新智元(AI_era)网络

近日，在美国明尼苏达州明尼阿波利斯的 NAACL2019 上， Sebastian Ruder, Matthew Peters, Swabha Swayamdipta 和 Thomas Wolf 分享了一个长达 238 页 PPT 关于“NLP中的迁移学习”的教程，今天拿来和你们分享。框架

经典的监督机器学习范式是基于对使用单个数据集的任务的单个预测模型的孤立学习。这种方法须要大量的训练示例，而且对于定义明确、范围狭窄的任务效果最好。迁移学习指的是一组方法，这些方法经过利用来自其余域或任务的数据来训练具备更好泛化特性的模型来扩展此方法。机器学习

近两年来，天然语言处理(NLP)领域出现了几种转移学习方法和体系结构，这些方法和体系结构大大提升了 NLP 任务的先进性。工具

这些改进，加上这些方法的普遍可用性和易集成性，令人们想起了致使计算机视觉中预训练字嵌入和 ImageNet 预训练成功的因素，并代表这些方法极可能成为 NLP 中的一种经常使用工具以及一个重要的研究方向。学习

咱们将概述 NLP 中的现代迁移学习方法，如何对模型进行预培训，它们所学习的表示捕获哪些信息，并回顾有关如何在下游 NLP 任务中集成和适应这些模型的示例和案例研究。spa

01什么是迁移学习？翻译

(a)传统机器学习的学习过程：blog

任务1：学习系统教程

任务2：学习系统

任务3：学习系统

(b)迁移学习的学习过程：

源任务：知识

目标任务：学习系统

02为何是NLP迁移学习？

1. 许多 NLP 任务都有共同的语言知识（例如语言表示、结构类似性）

2. 任务能够互相通知，例如语法和语义

3. 注释数据不多，尽量多地利用监督

4. 从经验上讲，迁移学习已经在 SOTA 造成了许多被监督的 NLP 任务（例如分类、信息提取、问答等）

为何是NLP迁移学习？（凭经验）

在命名实体识别(NER)CONLL-2003（英语）上随着时间推移的表现。

NLP 中迁移学习的类型

03本教程到底讲什么？

本教程讲的是什么，不讲的是什么：

1. 目标：提供 NLP 中迁移方法的普遍概述，重点介绍截至目前（ 2019 年年中）最成功的经验方法

2. 提供实用的、实际操做的建议→在教程结束时，每一个人都有能力将最新进展应用到文本分类任务中

3. 不讲的是什么：全面的（不可能在一个教程中涵盖全部相关的论文！）

4. （Bender Rule: 本教程主要是针对用英语完成的工做，其余语言的可扩展性取决于监督是否可用）

框架：

一、介绍

二、预训练

三、表明中有什么？

四、适应

五、下游

六、开放问题

顺序迁移学习

了解一个任务/数据集，而后迁移到另外一个任务/数据集

预训练：

word2vec

GloVe

skip-thought

InferSent

ELMo

ULMFiT

GPT

BERT

适应：

分类

序列标记

问答

04预培训任务和数据集

未标记数据和自我监督：

1. 易于收集的大型语料库：维基百科、新闻、网络爬虫、社交媒体等

2. 训练利用了分布假设：“你应该知道它所保存的一个词”(Firth，1957)，一般形式化为训练某种语言模型的变体

3. 注重高效算法利用丰富的数据

监督预培训：

1. 在视觉上很是常见，因为缺少大的监控数据集，在NLP中较少见

2. 机器翻译

3. 句子表达的 NLI

4. 从一个问答数据集到另外一个问答数据集的任务特定传输

05目标任务和数据集

目标任务一般是受监控的，跨越一系列常见的NLP任务：

1. 句子或文档分类（如情感）

2. 句子对分类（如NLI、释义）

3. 字级（例如序列标记、提取性问答）

4. 结构化预测（如解析）

5. 生成（例如对话、总结）

具体示例——词向量

单词嵌入方法（例如word2vec）每一个单词学习一个向量

06主题：从单词到语境中的单词

主题：从单词到语境中的单词

词向量句子/doc向量语境中词向量

主题：LM预训练

1. 许多成功的预培训方法都是基于语言建模的

2. 非正式地，LM学习p（文本）或p（文本/其余文本）

3. 不须要人工注释

4. 许多语言有足够的文原本学习大容量模型

5. 多才多艺，能学习句子和词的表达，具备多种客观功能

主题：由浅入深

1层 24层

主题：预培训与目标任务

预培训和目标任务的选择是耦合的

1. 句子/文档表示法对单词级预测无效

2. 词向量能够跨上下文聚集，但一般比其余方法更好

3. 在语境词向量中，双向语境很重要

通常来讲：

1. 相似的预培训和目标任务→最佳结果

《Transfer Learning in Natural Language Processing》PPT文件，可在公号“数智物语”后台回复“NLP中的迁移学习”查看详情。

星标我，天天多一点智慧