海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总

最近把海量数据如何进行相似查找技术进行个大体汇总,包括高维稀疏数据和稠密数据。 这一节重点针对高维稀疏数据情况,说如何通过哈希技术进行快速进行相似查找。 试想个案例,就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别,user是千万级别,这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢?  同样海量文本场景,文本集合可以看成doc-word 稀疏矩阵,
相关文章
相关标签/搜索