自然语言处理(五 文本相似度)

简单共有词判断模型 TFIDF向量表示 TFIDFWord2vec LMSentence Embedding表示 简单共有词判断模型 假设现在有文本A和B, Num(A∩B) 表示A和B中相同词的数量, Num(A∪B) 表示A和B中所有词的数量。那么定义A和B的相似程度为: Similarity(A,B)=Num(A∩B)Num(A∪B) TFIDF向量表示 上述共有词方式,只利用了词语的信息,
相关文章
相关标签/搜索