论文笔记【三】A Deep Dive into Word Sense Disambiguation with LSTM

时间 2019-11-11

标签论文笔记 deep dive word sense disambiguation lstm 栏目 Microsoft Office 繁體版

原文原文链接

深刻理解LSTM词义消歧git

Minh Le，Marten Postma，Jacopo Urbani和Piek Vossengithub

阿姆斯特丹自由大学语言，文学和传播系算法

阿姆斯特丹自由大学计算机科学系数据库

摘要

基于LSTM的语言模型已经在Word Sense Disambiguation（WSD）中显示出有效性。尤为是Yuan等人提出的技术（2016）在几个基准测试中返回了最早进的性能，可是没有发布训练数据和源代码。本文介绍了仅使用公开可用的数据集进行复制研究和分析该技术的结果（Giga Word,Sem Cor,OMSTI）和软件（Tensor Flow）。咱们的研究代表，与Yuan等人（2016年）所暗示的方法相比，能够用更少的数据得到相似的结果。详细的分析揭示了这种方法的优势和缺点。首先，添加更多未注释的训练数据颇有用，但收益递减。其次，该模型能够正确识别流行和不受欢迎的含义。最后，注释数据集中的有限感覆盖是一个主要限制。全部代码和训练有素的模型都是免费提供的。网络

1介绍

Word Sense Disambiguation（WSD）是NLP社区中一项历史悠久的任务（参见Navigli（2009）的一项调查），其目标是在Word Net等词汇数据库中以最恰当的含义注释文本中的词条（Fellbaum，1998））。已经提出了许多方法 - 更受欢迎的方法包括使用支持向量机（SVM）（Zhong和Ng，2010），SVM结合无监督训练嵌入（Iacobacci等，2016; Rothe和Sch¨utze，2017）和基于图的方法（Agirre等，2014; Weissenborn等，2015）。架构

近年来，人们对使用长期短时间记忆（LSTM）（Hochreiter和Schmidhuber，1997）进行WSD的兴趣激增（Raganato等，2017b; Melamud等，2016）。这些方法的特色是高性能，简单性以及从原始文本中提取大量信息的能力。其中表现最好的是Yuan等人的方法（2016），其中在具备1000亿个标记的语料库上训练的LSTM语言模型与小的有义注释的数据集相结合，以实现全部单词WSD中的最新性能。app

尽管Yuan等人（2016年）得到的结果优于先前的最新技术，但所使用的数据集和构建的模型都不可用于社区。这是不幸的，由于这使得该技术的从新应用成为一个非平凡的过程，而且阻碍了进一步研究以了解哪些限制能够防止更高的精度。例如，这些多是算法性质或与输入（尺寸或质量）有关，而更深刻的理解对于实现进一步改进相当重要。此外，未报告某些详细信息，这可能会阻止其余尝试复制结果。框架

为了解决这些问题，咱们从新实现了Yuan等人（2016）的方法，目标是：1）复制和提供代码，训练的模型和结果; 2）了解哪些是构成该方法的优势和缺点的主要因素。虽然因为原始数据不可用而没法彻底复制，但咱们仍设法用其余公共文本语料库重现他们的方法，这使咱们可以对该技术的性能进行更深刻的调查。这项调查旨在了解WSD方法的灵敏度。用于训练的未注释数据（即原始文本）的数量，模型复杂性，方法对于最多见语义（MFS）的选择偏好，以及识别使用较大的未注释数据集没法克服的限制。分布式

所以，本文的贡献有两方面：一方面，咱们提出了一项复制研究，其结果是公开的，所以能够由社区自由使用。请注意，在最近的一项工做中，明确提到缺少可用的模型是该技术与其余竞争对手缺失比较的缘由（Raganato等，2017b，脚注10）。另外一方面，咱们提出其余实验，以更多地阐明这种和相似方法的价值。函数

咱们期待得出一些结论。首先，一个积极的结果是咱们可以重现袁等人的方法。（2016）并得到与最初发布的结果相似的结果。然而，令咱们惊讶的是，这些结果是使用18亿标记（Gigaword）的小得多的语料库得到的，这小于原始研究中使用的数据的2％。此外，咱们观察到未注释数据的数量很重要，但其大小与改进之间的关系不是线性的，这意味着须要指数级更多未注释的数据才能提升性能。此外，咱们代表，正确语义分配的百分比更平衡，由于感知流行度，意味着系统对最多见意义（MFS）的偏见较弱，而且更好地识别流行和不受欢迎的含义。最后，咱们代表注释数据集中的有限的语义范围是一个主要限制，正如所获得的模型没有超过30％的意义所表示的事实所示，这些意义应该被考虑用于消除测试集的歧义。

2背景

当前的WSD系统能够根据两个维度进行分类：它们是否使用原始文本而没有任何预先指定的含义（此后未注释的数据），以及它们是否利用Word Net中的同义词集之间的关系（之后的同义词关系）。（IMS）（Zhong和Ng，2010; Taghipour和Ng，2015）是一个著名的最早进的系统，它不依赖于未注释的数据，也不利用同义词关系。该系统使用SVM仅使用带注释的数据做为训练证据来训练每一个引理的分类器。

相比之下，基于图形的WSD系统不使用（未）注释数据，而是依赖于synset关系。系统UKB（Agirre等，2014）将Word Net表示为一个图，其中synset是节点，关系是边。使用个性化PageRank算法初始化节点权重后，将根据上下文信息更新它们。而后，选择具备最高权重的synset。 Babelfy（Moro等人，2014）和Weissenborn等人的系统（2015）都将整个输入文档表示为具备同义词关系做为边缘并共同消除名词和动词消歧的图形。在Babelfy的状况下，使用最密集的子图启发式来计算文本的高度一致性语义解释。相反，Weissenborn等人（2015）将一组互补目标（包括感知几率和类型分类）组合在一块儿以执行WSD。

许多系统都使用未注释的数据和同义词关系。 Tripodi和Pelillo（2017）以及Camacho-Collados等人（2016）利用来自未注释数据的统计信息来权衡图中节点的相关性，而后将其用于执行WSD。 Rothe和Sch¨utze（2017）使用单词嵌入做为起点，而后依靠词汇资源中的形式约束来建立synset嵌入。

最近，使用未注释数据但不考虑同义关系的WSD方法出现了激增。 Iacobacci等人（2016）提供了一个例子，他研究了字嵌入做为WSD系统特征的做用。使用四种方法（级联，平均，分数衰减和指数衰减）使用单词嵌入从句子上下文中提取特征。而后将这些功能添加到IMS的默认特征集中（Zhong和Ng，2010）。此外，Raganato等人（2017b）提出了许多端到端神经WSD架构。性能最佳的是基于具备注意力机制和两个辅助损失函数（词性和Word Net粗粒度语义标签）的双向长短时间记忆（BLSTM）。 Melamud等（2016）也利用未注释的数据来训练BLSTM。咱们在本文中考虑的Yuan等人（2016）的工做属于最后一类。与Melamud等人（2016）不一样，它使用了更多未注释的数据，模型包含更多隐藏单元（2048对600），而且语义分配更加精细。咱们将在下一节中更详细地描述这种方法。

3语言模型用于消岐

Yuan等人（2016）提出的方法经过使用与其含义相关联的一个Word Net同义词来注释文本中的每一个引理来执行WSD。从广义上讲，消歧是经过如下方式完成的：1）从大型未注释数据集构建语言模型; 2）使用更小的注释数据集从该模型中提取语义嵌入; 3）依靠语义嵌入来对未知的句子中的引理进行预测。每一个操做以下所述。

构建语言模型。长期短时间记忆（LSTM）（Hochreiter和Schmidhuber，1997）是一种著名的递归神经网络结构，已被证实在许多天然语言处理任务中都有效（Sutskever等，2014; Dyer等，2015; He）与之前的架构不一样，LSTM配备了可控制信息流的可训练门，容许神经网络学习短程和长程依赖。

在Yuan等人（2016）的方法中，第一个操做包括构建LSTM语言模型以捕获上下文中单词的含义。他们使用具备h结点的单个隐藏层的LSTM网络。给定句子s =（w1，w2，...，wn），它们用特殊标记$替换单词wk（1≤k≤n）。该模型将该新句子做为输入，并产生维数p的上下文向量c （参见图1）。

图1：LSTM模型用于执行语言建模和计算上下文嵌入。在训练时，添加softmax层，容许它预测省略的单词; 在测试时，上下文嵌入用于最近邻居或标签传播过程当中的WSD。

词汇表V中的每一个单词w与相同维度的嵌入φo（w）相关联。训练该模型以实现预测被省略的单词，从而减少在句子的大集合D上的softmax损失。

在训练模型以后，咱们可使用它来提取上下文嵌入，即围绕给定单词的句子的潜在数字表示。

计算词义嵌入。LSTM网络生成的模型旨在捕获所说起的上下文中词语的“含义”。为了执行歧义消除，咱们须要从中提取出适合于词义的表达。为了这个目的，该方法依赖于另外一个语料库，语料库中每一个单词用相应的语义注释。

主要的直觉是，在相同词义上使用的词语也在彼此很是类似的上下文中被说起。这代表了一种计算语义嵌入的简单方法。首先，调用LSTM模型来计算注释数据集中一个语义每次出现的上下文向量。一旦计算了全部上下文向量，则将有义嵌入定义为全部向量的平均值。例如，让咱们假设感受马2n（即马的第二个含义做为名词）出如今两个句子中：

（1）马的移动到角落迫使了将军。

（2）Karjakin后来为一些失去的主教弥补了一些行动，交易车并赢得了黑马。

在这种状况下，该方法将用句子中的$替换该意义并将它们馈送到训练的LSTM模型以计算两个上下文向量c1和c2。而后将含义嵌入s horse2n计算为：

针对注释语料库中出现的每一个词义计算此过程。

平均技术来预测词义。 在计算全部意义嵌入以后，该方法准备消除目标词的歧义。该程序以下：

1.给定输入句子和目标词，它用$替换目标词的出现，并使用LSTM模型来预测上下文向量ct。

2.目标词的引理用于从Word Net中检索候选同义词s1,…,sn其中n是同义词的数量。而后，该过程查找在上一步中计算出来的相应的词义嵌入s1,…,sn。

3.该过程调用子例程来选择上下文向量ct中的n个词义中的一个。它使用余弦做为类似度函数选择其向量最接近ct的词义。

标签传播。袁等人（2016）认为平均程序不是最理想的，缘由有两个。首先，语义发生的分布规律是未知的，而平均仅适用于球形聚类。其次，平均将每一个语义的出现的表示减小到单个向量，所以忽略了感知先验。出于这个缘由，他们建议使用标签传播做为推理的替代方法。标签传播（Zhu和Ghahramani，2002）是一种经典的半监督算法，已应用于WSD（Niu等，2005）和其余NLP任务（Chen等，2006; Zhou，2011）。该过程涉及不只预测目标案例的语义，还预测从语料库查询的未注释单词的词义。它将目标案例和未注释的单词表示为向量空间中的点，并迭代地将分类标签从目标类传播到单词。经过这种方式，它能够用于构建非球形聚类并对频繁的感官产生更大的影响。

总体算法。咱们实施的总体消除歧义程序以下：

1. Monosemous单词义：首先，WSD算法检查目标词是不是单一的（即，只有一个synset）。在这种状况下，消歧是微不足道的。

2.标签传播：若是启用了标签传播，则它会检查目标词在注释数据集中是否至少出现一次，在辅助未注释数据集中至少出现一次。在这种状况下，该过程应用标签传播技术来选择候选synset。

3.平均：若是先前的策略不适用而且在带注释的数据集中至少出现一个目标引理，则咱们应用平均技术来选择候选同义词集。

4. MFS回退：若是目标引理未出如今带注释的数据集中，则系统会选择最多见的同义词集。

4复现研究：方法论

在咱们报告实验结果以前，咱们会描述所使用的数据集，并提供有关咱们实施的一些细节。

训练数据。原始出版物中使用的1000亿令牌语料库不公开。所以，对于LSTM模型的培训，咱们使用英语Gigaword第五版（语言数据联盟（LDC）目录号LDC2011T07）。该语料库包括来自四大新闻机构的410万份文件中的18亿份代币。咱们将研究更大的语料库留待未来工做。

对于词义嵌入的训练，咱们使用了Yuan等人使用的相同的两个语料库。（2016）：

1. SemCor（Miller等，1993）是一个包含大约240,000个有义注释词的语料库。标记文件来自布朗语料库（Francis and Kucera，1979），涵盖各类类型。

2. OMSTI（Taghipour和Ng，2015）包含一百万个语义标注，经过利用并行多联合语料库的英汉部分自动标记（Eisele和Chen，2010）。为每一个WordNet意义手动建立了英语翻译列表。若是英语单词的中文翻译与Word Net意义的手动策划翻译之一匹配，则选择该意义。

实现。咱们使用Beautiful Soup HTML解析器从Gigaword语料库中提取纯文本。而后，咱们使用Spacy 1.8.2的英文模型进行句子边界检测和标记化。 LSTM模型使用Tensor Flow 1.2.1（Abadi等，2015）实施。咱们选择Tensor Flow是由于它具备工业级质量，由于它能够培养大型模型。

整个过程的主要计算瓶颈是LSTM模型的训练。虽然咱们不使用1000亿标记语料库，但若是没有正确优化，在Gigaword上训练模型可能须要数年时间。为了减小训练时间，咱们假设批次中的全部（填充）句子具备相同的长度。在较小的模型（h = 100，p = 10）上测量，这种优化将速度提升了17％。其次，在Yuan等人的研究中，咱们使用了采样的softmax损失函数（Jean et al。，2015）。第三，咱们将类似长度的句子组合在一块儿，同时改变批次中的句子数量以充分利用GPU RAM。这些启发式技术共同将训练速度提升了42倍。

虽然袁等人建议使用标签传播的分布式实现（Ravi和Diao，2015），咱们发现scikit-learn（Pedregosa等，2011）对于咱们的实验来讲足够快。对于超参数调整，咱们使用OMSTI中的注释（其中在测试时不使用）。在测量标签传播的一些变化的性能（scikit-learn实现：标签传播或标签传播;类似性度量：内部产品或径向基函数与不一样的γ值）后，咱们发现标签传播与内积类似性的组合致使最佳结果，也比开发集上的平均值更好。

评估框架。为了评估WSD预测，咱们选择了两个测试集：一个来自Senseval2（Palmer等，2001）竞赛，它测试名词，动词，形容词和副词的歧义，以及一个来自2013版（Navigli等，2013），仅关注名词。

Senseval-2的测试集是英语全词任务; senseval2今后之后。该数据集包含来自华尔街日报的三篇文章中的2,282个注释。大多数注释都是名义上的，但竞争中还包含动词，形容词和副词的注释。在该测试集中，66.8％的全部目标词都用词目的最多见词义（MFS）注释。这意味着老是选择MFS的简单策略将在该数据集上得到66.8％的F1。

SemEval-2013的测试集是从任务12：多语言词义消歧; semeval2013。此任务包括两个消除歧义的任务：英语，德语，法语，意大利语和西班牙语的实体连接和词义消歧。该测试集包含之前版本的统计机器翻译研讨会中的13篇文章。这些文章共包含1,644个测试实例，这些都是名词。 MFS基线在该数据集上的应用产生了63.0％的F1分数。

表1：与已公布的结果相比，咱们的实施绩效。咱们报告用于执行WSD的模型/方法，使用的带注释的数据集和记分器，以及每一个测试集的F1。在咱们的模型命名中，LSTM表示平均技术用于词义分配，而LSTMLP表示使用标签传播得到的结果（参见第3节）。 T：以后的数据集表示用于表示语义的注释语料库，而U：OMSTI表示在使用标签传播的状况下使用OMSTI做为未标记的句子。 P：Sem Cor表示Sem Cor的感知分布用于系统架构。使用了三个得分：“framework”是指Raganato等人的WSD评估框架。（2017A）; “mapping to WN3.0”是指Yuan等人使用的评估，而“competition”是指比赛自己提供的得分（例如，semeval2013）。

5结果

在本节中，咱们报告了咱们对Yuan等人的结果的再现，而且附加了其余实验，以深刻了解该方法的优势和缺点。这些实验侧重于最多见和较不常见的语义表现，注释数据集的覆盖范围以及随之而来的对消岐准确性的影响，包括对总体预测的影响，对语义表示的粒度的影响以及对未注释数据和模型复杂性的影响。

复制结果。 咱们使用Yuan等人的最佳报告设置训练了LSTM模型。（2016）（隐藏层大小h = 2048，嵌入维度p = 512）使用配备Intel Xeon E5-2650,256GB RAM，8TB磁盘空间和两个NVIDIA Ge Force GTX 1080 Ti GPU的机器。咱们的训练，充分利用一个GPU在TensorFlow一次epoch花了大约一天完成。整个训练过程用了四个月。咱们在训练期间三次测试了下游WSD任务的性能，并观察到在第65个时期得到了最佳性能，尽管后来的模型产生了较低的负对数似然。所以，咱们在下面的实验中使用了第65个时期产生的模型。

表1分别使用测试集senseval2和semeval2013表示结果。表格的上半部分显示了咱们的复制结果，中间部分报告了Yuan等人的结果，而底部报告了其余最早进方法的表明性样本。

应该注意的是，使用semeval2013的测试集，全部得分者都使用Word Net 3.0，所以能够直接比较各类方法的性能。然而，并不是senseval2中的全部答案均可以映射到WN3.0，咱们不知道Yuan等人是怎么处理了这些案件。在咱们选择进行评估的WSD评估框架（Moro et al，2014）中，这些案例要么从新注释要么被删除。所以，咱们在senseval2上的F1没法直接与原始论文中的F1进行比较。

从表1的第一眼看，咱们观察到若是咱们使用SemCor来训练synset嵌入，那么咱们的结果接近于senseval2上的最新技术（0.720对0.733）。在semeval2013上，咱们得到了与其余嵌入式方法至关的结果（Raganato等，2017b; Iacobacci等，2016; Melamud等，2016）。然而，与Weissenborn等人的基于图的方法的差距仍然很明显。当咱们使用SemCor和OMSTI做为注释数据时，咱们的结果对于senseval2降低0.02点，而对于semeval2013，它们增长了近0.01。与袁等人不一样，咱们没有观察到使用标签传播的改进（比较T：SemCor，U：OMSTI对T：SemCor没有传播）。可是，标签传播策略的性能在两个测试集上仍然具备竞争力。

大多数与不太频繁的语义实例。 原始论文仅分析了整个测试集的性能。咱们经过查看用于消除最多见语义（MFS）和低频语义（LFS）实例消除歧义的性能来扩展此分析。第一类实例是正确连接最多见的语义实例，而第二类包含其他实例。这种分析很重要，由于在WSD中，老是选择MFS的策略是WSD的有效基线，所以WSD系统对于最多见语义容易过拟合。

表2显示了Yuan等人的方法，因为对LFS实例的召回仍然至关高（0.41）（LFS实例的召回率低于MFS实例，由于它们的训练数据减小，所以预计对MFS的覆盖率与其余监督系统相同）。

在semeval13上，仅使用SemCor（0.33）对LFS的召回已经相对较高，当使用SemCor和OMSTI时，LFS的召回率已达到0.38。为了进行比较，在SemCor上训练的默认系统IMS（Zhong和Ng，2010）仅在semeval13上得到0.15的R lfs（Postma等，2016），而且仅在具备大量注释数据的状况下达到0.33。

最后，咱们对标签传播的实现彷佛对MFS略微太高。当咱们比较使用SemCor和OMSTI的平均技术与使用标签传播时的结果时，咱们注意到MFS召回的增长（从0.85到0.91），而LFS召回从0.40降低到0.32。

注释数据集中的含义覆盖。 WSD程序依赖于带注释的语料库来构成其语义表示，使得缺失注释成为不可逾越的障碍。实际上，带注释的数据集仅包含WordNet中列出的可能候选同义词集的正确子集的注释。咱们使用四个统计数据分析这种现象

1.候选覆盖：对于每一个测试集，咱们在WordNet中执行查找以肯定全部目标词目的惟一候选同义词。而后，咱们肯定在注释数据集中具备至少一个注释的这些候选同义词的百分比。

2.引理覆盖：给定测试集中的目标词，咱们在Word Net中执行查找以肯定惟一的候选同义词。若是该目标引理的全部候选同义词在注释数据集中至少有一个注释，咱们声称该目标词被覆盖。而后，目标覆盖率是全部覆盖的目标词的百分比。高目标词覆盖率代表带注释的数据集涵盖了测试集中的大部分含义。

3.金牌覆盖：咱们计算测试集中正确答案的百分比，该答案在带注释的数据集中至少有一个注释。

表3的“候选覆盖率”列显示SemCor仅包含semeval2和semeval2013的全部候选同义词中不到70％的部分，这意味着模型将永远不会具备超过30％的候选同义词集的表示。即便添加了OMSTI，覆盖率也不会超过70％，这意味着咱们缺少大量潜在注释的证据。此外，“目标词覆盖率”一栏代表，咱们在两个WSD竞赛中只有30％的词有全部潜在解决方案的证据，这意味着在绝大多数状况下，从未见过某些解决方案。 “黄金覆盖率”列衡量是否至少在带注释的数据集中看到了正确的答案。数字代表测试集中20％的解决方案没有任何注释。使用咱们的方法，这些答案只有在词是单词义的状况下才能返回，不然只能经过随机猜想返回。

为了进一步研究这些问题，表4报告了各类消除歧义策略的召回率，这些策略能够根据词的覆盖范围进行调用（这些能够是：单一，平均，标签传播，MFS - 参见第3节中报告的总体程序）。

咱们观察到MFS回退在得到整体高精度方面起着重要做用，由于它被屡次调用，特别是对于OMSTI，因为数据集的覆盖率低（在这种状况下，它在775个案例中被调用，而在1072个场景中被调用）。例如，若是咱们没有使用SemCor做为带注释的语料库对senseval2应用MFS回退策略，那么咱们的性能将从0.72降至0.66，低于此任务的MFS基线0.67。标签传播确实适用于一半案件，但致使较低的结果。从这些结果中，咱们了解到这种方法的有效性很大程度上取决于带注释数据集的覆盖范围：若是它不像OMSTI那样高，那么这种方法的性能会下降到选择MFS的方式。

词义表征的粒度。 Rothe和Sch¨utze（2017）提供了证据，证实词义表征的粒度对WSD表现有影响。更特别的是，他们的WSD系统在使用sensekeys（在他们的论文中称为lexemes）训练时比在synsets上训练得更好。虽然基于sensekey的消歧致使每一个目标词的注释数据较少，可是sensekey表示比在synset级别更精确（由于它是与特定含义相关联的词）。

本文讨论的从新实现使咱们可以回答这个问题：“若是咱们将消歧水平从synset下降到sensekey，LSTM模型将如何工做？”表5显示了该实验的结果。从表中能够看出，咱们的方法在两个测试集上也返回了更好的性能。这种行为颇有趣，一种可能的解释是sensekeys比synsets更具辨别力，这有利于消歧。

注释5：senseval2包含2,282个实例，若是不使用MFS回退策略，系统将错误地回答135个实例，所以性能降低0.06。

表5：使用synset或sensekey级别表示含义的咱们实现的F1分数的比较。

（a）性能与未注释的语料库大小

（b）性能与参数数量

图2：（a）未注释语料库大小和（b）WSD性能参数数量的影响。参数数量包括隐藏层的权重，投影层的权重以及输入和输出嵌入。注意横轴是对数刻度。

未注释数据和模型大小的影响。 因为未注释的数据很是丰富，所以人们颇有可能使用愈来愈多的数据来训练语言模型，但愿更好的词向量可以转化为改进的WSD性能。事实上袁等人使用了一个1000亿标记语料库只是强化了这种直觉。咱们经过改变用于训练LSTM模型的语料库的大小并测量相应的WSD性能来凭经验评估未标记数据的有效性。更具体地说，训练数据的大小设置为千兆字库的1％，10％，25％和100％（包含1.8×107,1.8×108,4.5×108和1.8×109字，分别）。

图2a显示了未注释数据量对WSD性能的影响。 1000亿（1011）标记的数据点对应于Yuan等人的报告结果。正如能够预料的那样，更大的语料库会致使更有意义的上下文向量，从而致使更高的WSD性能。可是，F1中1％的改进所需的数据量呈指数级增加（注意横轴是对数刻度）。从该图中推断，为了经过添加更多未注释的数据得到0.8 F1的性能，须要个标记的语料库。这种观察结果也适用于词义分配的平衡。仅使用25％的未注释数据已经使得低频词义的召回率下降了35％。

此外，人们可能指望经过增长LSTM模型的容量来进一步提升性能。为了评估这种可能性，咱们进行了一项实验，其中咱们改变了在100％GigaWord语料库上训练的LSTM模型的大小，并分别针对senseval2和semeval2013进行了评估。图2b代表它是可能的，但须要一个指数级更大的模型。

最后，Reimers和Gurevych（2017）已经代表，报告测试分数的分布而不是仅仅一个分数是相当重要的，由于这种作法可能致使错误的结论。正如第5节开头所指出的那样，咱们最大的模型须要几个月才能进行训练，所以训练它们的多个版本是不切实际的。然而，咱们训练了咱们最小的模型（h = 100，p = 10）十次，咱们的第二个最小模型（h = 256，p = 64）五次，并观察到随着参数数量的增长，F1的标准差从0.008减少到0.003。所以，咱们认为随机波动不会影响结果的解释。

6 结论

本文报道了Yuan等人提出的模型的复制研究结果和另外的分析，以深刻了解各类因素对其表现的影响。

从咱们的结果中能够得出一些有趣的结论。首先，咱们观察到咱们不须要一个很是大的未注释数据集来实现最早进的全字WSD性能，由于咱们使用的是Gigaword语料库，它比Yuan等人的专有语料库小两个数量级，在senseval2和semeval2013上得到了相似的性能。更详细的分析暗示，添加更多未注释的数据和增长模型容量会受到收益递减的影响。此外，咱们观察到这种方法比其余技术具备更平衡的词义分配，如在频率较低的状况下相对较好的性能所示实例。此外，咱们发现注释数据集中的有限意义覆盖范围为总体性能设置了潜在的上限。具备详细复制指令的代码可在如下位置得到：https://github.com/cltl/wsd-dynamic-sense-vector，训练的模型在: https://figshare.com/articles/A_Deep_Dive_into_Word_Sense_Disambiguation_with_LSTM/6352964.