衡量文档相似性的一种方法-----词移距离 Word Mover's Distance

转载:https://blog.csdn.net/qrlhl/article/details/78512598 问题的提出 假如现在有一个任务,是判断两段文本之间的相似性,那我们应该怎么做呢?一个很自然的想法是用word2vec对两段文本的词向量化,然后再利用欧氏距离或者余弦相似性进行求解。不过这种方法有着致命的缺陷,即无法从文档整体上来考虑相似性,仅仅是基于词,这就造成了很大的信息缺失问题,下面
相关文章
相关标签/搜索