Hadoop处理数据遇到超大矩阵问题

数据集如图片所示,我需要用某个简单公式计算两两数据之间的相似性,这样就会计算出一个12乘12的方阵,在后面的计算中,不同的步骤会用到方阵中的若干行,请问如果是一个超大数据集怎么办?假如说我有100万条数据,那么这个方阵就是100万乘100万那么大,相信再大的集群也很难胜任这样的任务,更别说后面还有复杂的计算,各位网友有什么好的方法吗?放在Hadoop中处理,应该如何设计算法逻辑?
相关文章
相关标签/搜索