自然语言处理之特征提取和嵌入

时间 2020-12-20

原文原文链接

在经过了文本处理步骤（可参考自然语言处理之文本处理步骤）后有下列几种方法可以进行特征提取。 Bag of word 将这些词变成一个索引放入一个表格中，然后每个文档作为一行，统计文档中的词出现的次数。如何计算两个文档之间的相似度呢？一种方法是计算两个文章的点积，但是点积有个缺陷，只能捕捉重叠部分的，它不受其他不同值的影响，因此差别很大的两行，这两行比较长，和差别很小的两行，这两行比较短，他们的

>>阅读原文<<