海量数据相似查找系列2 -- Annoy算法

时间 2021-01-09

原文原文链接

上面一章说了下高维稀疏数据如何通过learning to hash的方法来进行相似查找，这种主要想说下另外一种情况，稠密向量如何进行快速相似查找呢？还是以文本为例吧。之前提到过文本的paragraph2vector的向量表示，以及词word2vector向量表示形式。一旦文档变成这种稠密向量形式，那如何从海量文本中快速查找出相似的Top N 文本呢? 所以这里重点想说下Annoy（ Approxi

>>阅读原文<<