分散式的句子和文件表示

本文翻译doc2vec模型的提出论文distributed representations of sentences and documents。 正式译文如下: 摘要:许多机器学习算法需要一个固定长度的特征向量作为输入,当运用到文本上时,词袋是最常见的固定长度特征之一,尽管很流行,词袋特征有两个主要的缺点:缺少了词语之间的顺序和忽略了单词的语义。例如,‘powerful’,‘strong’和‘P
相关文章
相关标签/搜索