Hadoop处理数据遇到超大矩阵问题

时间 2021-01-09

原文原文链接

数据集如图片所示，我需要用某个简单公式计算两两数据之间的相似性，这样就会计算出一个12乘12的方阵，在后面的计算中，不同的步骤会用到方阵中的若干行，请问如果是一个超大数据集怎么办？假如说我有100万条数据，那么这个方阵就是100万乘100万那么大，相信再大的集群也很难胜任这样的任务，更别说后面还有复杂的计算，各位网友有什么好的方法吗？放在Hadoop中处理，应该如何设计算法逻辑？

>>阅读原文<<