海量数据相似查找系列1 -- Minhashing & LSH & Simhash 技术汇总

时间 2021-01-13

原文原文链接

最近把海量数据如何进行相似查找技术进行个大体汇总，包括高维稀疏数据和稠密数据。这一节重点针对高维稀疏数据情况，说如何通过哈希技术进行快速进行相似查找。试想个案例，就拿推荐系统中item-user矩阵说事。如果你有item数量是百万级别，user是千万级别，这个矩阵是十分稀疏的。你如何计算每一个item的Top N相似item呢？同样海量文本场景，文本集合可以看成doc-word 稀疏矩阵，

>>阅读原文<<