自然语言处理之特征提取和嵌入

在经过了文本处理步骤(可参考自然语言处理之文本处理步骤)后有下列几种方法可以进行特征提取。 Bag of word 将这些词变成一个索引放入一个表格中,然后每个文档作为一行,统计文档中的词出现的次数。 如何计算两个文档之间的相似度呢? 一种方法是计算两个文章的点积,但是点积有个缺陷,只能捕捉重叠部分的,它不受其他不同值的影响,因此差别很大的两行,这两行比较长,和差别很小的两行,这两行比较短,他们的
相关文章
相关标签/搜索