如何产生好的词向量

时间 2019-11-05

标签如何产生好的向量繁體版

原文原文链接

如何产生好的词向量？网络

词向量、词嵌入（word vector，word embedding）也称分布式表示（distributed representation），想必任何一个作NLP的研究者都不陌生。现在词向量已经被普遍应用于各自NLP任务中，研究者们也提出了很多产生词向量的模型并开发成实用的工具供你们使用。在使用这些工具产生词向量时，不一样的训练数据，参数，模型等都会对产生的词向量有所影响，那么如何产生好的词向量对于工程来讲很重要。中科院自动化所的来斯唯博士对此进行了详细的研究。本篇博客也是我阅读来博士发表的论文《How to Generate a Good Word Embedding?》和其博士论文的笔记，并结合本身平时实验的经验总结出来的，但愿对你们在训练词向量时有所帮助。分布式

1 词的表示技术函数

在来博士的博士论文中概述了现有的主要词表示技术，我在此也先简单进行介绍。工具

1.1 独热表示技术（早期传统的表示技术）性能

1.2 分布表示技术（与独热表示技术相对应，基于分布式假说[即上下文类似的词，其语义也类似]，把信息分布式地存储在向量的各个维度中的表示方法，具备紧密低维，捕捉了句法、语义信息特色）字体

基于矩阵的分布表示

基于聚类的分布表示

经过聚类手段构建词与其上下文之间的关系。表明模型：布朗聚类（Brown clustering）。优化

基于神经网络的分布表示（这是咱们下面要研究的主要方法，在此介绍几种表明性模型）

神经网络语言模型（NNLM）spa

Log双线性语言模型（LBL）blog

C&W模型ip

Continuous Bag-of-Words（CBOW）
Skip-gram（SG）

Word2vec工具中的两个模型

Order模型

在上面CBOW模型的在输入层是直接进行求和，这样并无考虑词以前的序列顺序，因此来博士把直接求和改成了词向量之间的顺序拼接来保存序列顺序信息。

模型理论比较

2各类模型的实验对比分析

整个实验是围绕下面几个问题进行的:

如何选择合适的模型？
训练语料的大小及领域对词向量有什么影响？
如何选择训练词向量的参数？
- 迭代次数
- 词向量维度

评价任务

词向量的语言学特性

词义相关性(ws): WordSim353数据集，词对语义打分。皮尔逊系数评价。
同义词检测(tfl): TOEFL数据集，80个单选题。准确率评价
单词语义类比(sem): 9000个问题。queen-king+man=women。准确率
单词句法类比(syn): 1W个问题。dancing-dance+predict=predicting。准确率

词向量用做特征

基于平均词向量的文本分类(avg): IMDB数据集，Logistic分类。准确率评价
命名实体识别(ner): CoNLL03数据集，做为现有系统的额外特征。F1值

词向量用做神经网络模型的初始值

基于卷积的文本分类(cnn): 斯坦福情感树库数据集，词向量不固定。准确率
词性标注(pos): 华尔街日报数据集，Collobert等人提出的NN。准确率

实验结果（红色字体为博主本身总结，黑色字体为论文结论）

模型比较

对于评价语言学特性的任务，经过上下文预测目标词的模型，比上下文与目标词联合打分的C&W模型效果更好。
对于实际的天然语言处理任务，各模型的差别不大，选用简单的模型便可。
简单模型在小语料上总体表现更好，而复杂的模型须要更大的语料做支撑。

语料影响

同领域的语料，通常语料越大效果越好
领域内的语料对类似领域任务的效果提高很是明显，但在领域不契合时甚至会有负面做用。
在天然语言任务上，同领域的语料10M效果明显差，可是100M以上扩大语料，任务结果的差别较小。

规模和领域的权衡

语料的领域纯度比语料规模更重要。（特别是在任务领域的语料比较小时，加入大量其余领域的语料可能会有很负面的影响）

参数选择

迭代次数

根据词向量的损失函数选择迭代次数不合适。
条件容许的话，选择目标任务的验证集性能做为参考标准。
具体任务性能指标趋势同样，能够选简单任务的性能峰值。
使用word2vec工具中demo的默认参数，15~25次差很少。

词向量维度

对于分析词向量语言学特性的任务，维度越大效果越好。
对于提高天然语言处理任务而言，50维词向量一般就足够好。（这里我以为只能说是某些任务，不过趋势是一致的，随着词向量维度的增长，性能曲线先增加后趋近于平缓，甚至降低）

3 总结

选择一个合适的模型。复杂的模型相比简单的模型，在较大的语料中才有优点。（在word2vec工具中我通常使用SG模型）
选择一个合适领域的语料，在此前提下，语料规模越大越好。使用大规模的语料进行训练，能够广泛提高词向量的性能，若是使用领域内的语料，对同领域的任务会有显著的提高。（训练语料不要太小，通常使用同领域语料达到100M规模）
训练时，迭代优化的终止条件最好根据具体任务的验证集来判断，或者近似地选取其它相似的任务做为指标，可是不该该选用训练词向量时的损失函数。（迭代参数我通常使用根据训练语料大小，通常选用10~25次）
词向量的维度通常须要选择50维及以上，特别当衡量词向量的语言学特性时，词向量的维度越大，效果越好。（一般根据具体任务进行实验，最后根据性能和实验需使用的时间选择合适的词向量维度）

主要参考文献

[1] Lai S, Liu K, Xu L, et al. How to Generate a Good Word Embedding?. arXiv preprint arXiv:1507.05523, 2015.

[2] 来斯唯. 基于神经网络的词和文档语义向量表示方法研究. 中科院自动化所，博士论文，2016.