NLP发展

时间 2019-11-20

标签 nlp 发展繁體版

原文原文链接

1、Word Embedding

分布式假设：假设两个词上下文类似，则它们的语义也类似。算法

　　基于全局矩阵分解的方法，如：latent semantic analysis:LSA 。机器学习

　　　　优势：可以有效的利用全局的统计信息。分布式

　　　　缺点：在单词类比任务（如：国王 vs 王后类比于男人 vs 女人）中表现相对较差。ide

　　基于局部上下文窗口的方法，如：word2vec。学习

　　　　优势：在单词类比任务中表现较好。翻译

　　　　缺点：由于word2vec 在独立的局部上下文窗口上训练，所以难以利用单词的全局统计信息。3d

　　Global Vectors for Word Representation:GloVe 结合了LSA 算法和Word2Vec 算法的优势，既考虑了全局统计信息，又利用了局部上下文。orm

　　Cbow/Skip-Gram 是一个local context window的方法，缺少了总体的词和词的关系，负样本采用sample的方式会缺失词的关系信息。
另外，直接训练Skip-Gram类型的算法，很容易使得高曝光词汇获得过多的权重blog

　　Global Vector融合了矩阵分解Latent Semantic Analysis (LSA)的全局统计信息和local context window优点。融入全局的先验统计信息，能够加快模型的训练速度，又能够控制词的相对权重。ip

问题：词向量不考虑上下文，没法解决“一词多义”

解决方案：RNN具备“记忆”能力

RNN的问题：顺序依赖，没法并行。（单向信息流）

可用于翻译、摘要、问答和对话系统

问题：定长的context向量

解决：RNN单向数据流的问题

问题：监督数据量不足，难以学到复杂的上下文表示；

解决方案：无监督的contextual word embedding：ELMo、OpenAI GPT、BERT

Masked LM：masked language model

举例：意图分类

问题：给定一个句子，判断其意图分类，几万训练数据，几百个类别，数据不平衡

结果：BERT分类器比BaseLine分类器F1值得分提升3%

参考文献：

【1】60分钟带你掌握NLP BERT理论与实战_哔哩哔哩 (゜-゜)つロ干杯~-bilibili