From Word Embeddings To Document Distances 阅读笔记

本文主要解决文本相似度问题,在word2vec, BOW的基础上提出了WMD模型(Word Mover’s Distance),主要思想是将A文档中的每个词,通过最小距离的转移到B文档中对应的词,最终将每个距离相加,作为衡量两个文档的距离。WMD是无超参数的,而且可解释性高。在一些nlp任务中取得了不错效果。 背景介绍: 解决这类问题的常见思路如下: 文档最常用的两种表示方式BOW和TF-IDF。
相关文章
相关标签/搜索