主题模型(一)LSA(LSI)

先考虑这样一个问题,给定若干篇文档集合,怎么从中找出最相似的两篇? 相似性可以由余弦距离衡量。余弦距离公式: c o s ( a → , b → ) = a → ∗ b → ∣ a ∣ ∗ ∣ b ∣ cos(\overrightarrow{a}, \overrightarrow{b}) = { \overrightarrow{a}*\overrightarrow{b} \over |a|*|b|
相关文章
相关标签/搜索